AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / computer / Perguntas / 1861317
Accepted
Ralf_Reddings
Ralf_Reddings
Asked: 2024-11-11 00:00:08 +0800 CST2024-11-11 00:00:08 +0800 CST 2024-11-11 00:00:08 +0800 CST

Use o título da página para o nome do arquivo HTML quando baixado usando wget

  • 772

Posso baixar um único arquivo HTML independente com:

wget https://www.bbc.co.uk/news/articles/c99rgj0xkryo

mas wget salvará o arquivo como index.htmlem vez de Nation falls silent as King leads Remembrance ceremony.html. Como faço para que wget use o título da página?

Neste caso, não estou preocupado em quebrar links para os arquivos offline. Estou preocupado apenas em baixar páginas autônomas.

Estou em:

  • Windows 11
  • pwsh 7.4
powershell
  • 2 2 respostas
  • 79 Views

2 respostas

  • Voted
  1. JayCravens
    2024-11-11T03:32:33+08:002024-11-11T03:32:33+08:00

    A bandeira está -Ohasteada wget.

    wget -O "Nation falls silent as King leads Remembrance ceremony.html" https://www.bbc.co.uk/news/articles/c99rgj0xkryo
    

    Aqui está um script para usar automaticamente o título como nome do arquivo.

    Você precisará de https://www.html-tidy.org . Ele está no repositório da maioria das distribuições.

    #!/bin/bash
    
    url="$1"
    
    wget -O "temp_index.html" "$url"
    
    tidy -m "temp_index.html"
    
    title_data=$(grep "<title" "temp_index.html" | head -20 | cut -d'>' -f2-)
    
    if [[ "$title_data" =~ "</title>" ]]; then
        title_data=$(echo "$title_data" | sed 's/........$//')
    fi
    
    mv "temp_index.html" "$title_data".html
    
    exit 0
    

    Depois de alguns testes, notei que a formatação da página resulta em </title>estar na próxima linha, mas às vezes não está. Então, adicionei uma verificação para lidar com ambos os cenários.

    Salvar como: html_to_title.sh
    Alterar modo executável: chmod +x html_to_title.sh
    Uso:./html_to_title.sh www.example.com


    Não uso o Windows há tanto tempo que isso pode estar desatualizado, e não tenho como testá-lo, mas aqui está uma tentativa de versão do PowerShell.

    param (
        [string]$url
    )
    
    $tempFile = "temp_index.html"
    Invoke-WebRequest -Uri $url -OutFile $tempFile
    
    # Pretty print HTML... Can windows use tidy for this?
    $content = Get-Content -Path $tempFile -Raw
    $cleanContent = $content
    
    # Compacted HTML will not work, somehow you must use $cleanContent for beautification
    
    Set-Content -Path $tempFile -Value $cleanContent
    
    $titleData = ($cleanContent -match '<title(.*?)</title>') ? $matches[1] : "Untitled"
    
    # Sanitize title for filename, if missed characters, add them here
      
    $titleData = $titleData -replace '[<>:"/\\|?*]', '_'  
    $newFileName = "$titleData.html"
    Rename-Item -Path $tempFile -NewName $newFileName
    
    exit 0
    

    Uso:.\Get-PageTitle.ps1 "http://example.com"

    É o melhor que posso fazer quando se trata do Windows.

    • 2
  2. Best Answer
    Destroy666
    2024-11-16T22:54:19+08:002024-11-16T22:54:19+08:00

    Com o PowerShell 5 é muito mais simples obter o título:

    (Invoke-WebRequest -Uri https://www.bbc.co.uk/news/articles/c99rgj0xkryo).ParsedHtml.title
    

    No entanto, ParsedHtmlfoi basicamente removido do PowerShell 7, pois as solicitações sempre usam -UseBasicParsing. Então você precisa usar biblioteca externa ou soluções alternativas até que eles talvez o reimplementem.

    Então, para limpar nomes de arquivos, existem algumas funções auxiliares para cobrir todos os caracteres, por exemplo, GetInvalidFileNameChars()que podem ser usadas em uma função como esta:

    Function Remove-InvalidFileNameChars {
     param(
        [Parameter(Mandatory=$true,
          Position=0,
          ValueFromPipeline=$true,
          ValueFromPipelineByPropertyName=$true)]
        [String]$Name
     )
    
      $invalidChars = [IO.Path]::GetInvalidFileNameChars() -join ''
      $re = "[{0}]" -f [RegEx]::Escape($invalidChars)
      return ($Name -replace $re)
    }
    

    Fonte .

    • 1

relate perguntas

  • Como colocar string variável em array no powershell?

  • Powershell e regex: lista de arquivos "backup ao salvar" do Notepad ++. Editar nome, classificar por lastwritetime

  • Adicionando cor de primeiro plano ao perfil do Powershell?

  • Não é possível ativar o Microsoft Print to PDF depois de desativado

  • Posso fazer com que este script do PowerShell aceite vírgulas?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como posso reduzir o consumo do processo `vmmem`?

    • 11 respostas
  • Marko Smith

    Baixar vídeo do Microsoft Stream

    • 4 respostas
  • Marko Smith

    O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

    • 6 respostas
  • Marko Smith

    O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

    • 5 respostas
  • Marko Smith

    Como faço para ativar o WindowsXP agora que o suporte acabou?

    • 6 respostas
  • Marko Smith

    Área de trabalho remota congelando intermitentemente

    • 7 respostas
  • Marko Smith

    O que significa ter uma máscara de sub-rede /32?

    • 6 respostas
  • Marko Smith

    Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

    • 1 respostas
  • Marko Smith

    O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

    • 8 respostas
  • Marko Smith

    Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

    • 5 respostas
  • Martin Hope
    Vickel O Firefox não permite mais colar no WhatsApp web? 2023-08-18 05:04:35 +0800 CST
  • Martin Hope
    Saaru Lindestøkke Por que os arquivos tar.xz são 15x menores ao usar a biblioteca tar do Python em comparação com o tar do macOS? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh Como posso reduzir o consumo do processo `vmmem`? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Pesquisa do Windows 10 não está carregando, mostrando janela em branco 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    andre_ss6 Área de trabalho remota congelando intermitentemente 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney Por que colocar um ponto após o URL remove as informações de login? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca Todos os meus complementos do Firefox foram desativados repentinamente, como posso reativá-los? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK É possível criar um código QR usando texto? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 Altere o nome da ramificação padrão do git init 2019-04-01 06:16:56 +0800 CST

Hot tag

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve