Como colocar string variável em array no powershell?

Question

Ralf_Reddings

Asked: 2024-11-11 00:00:08 +0800 CST2024-11-11 00:00:08 +0800 CST 2024-11-11 00:00:08 +0800 CST

Use o título da página para o nome do arquivo HTML quando baixado usando wget

772

Posso baixar um único arquivo HTML independente com:

wget https://www.bbc.co.uk/news/articles/c99rgj0xkryo

mas wget salvará o arquivo como index.htmlem vez de Nation falls silent as King leads Remembrance ceremony.html. Como faço para que wget use o título da página?

Neste caso, não estou preocupado em quebrar links para os arquivos offline. Estou preocupado apenas em baixar páginas autônomas.

Estou em:

Windows 11
pwsh 7.4

2 respostas

Voted

JayCravens · Answer 1 · 2024-11-11T03:32:33+08:00

A bandeira está -Ohasteada wget.

wget -O "Nation falls silent as King leads Remembrance ceremony.html" https://www.bbc.co.uk/news/articles/c99rgj0xkryo

Aqui está um script para usar automaticamente o título como nome do arquivo.

Você precisará de https://www.html-tidy.org . Ele está no repositório da maioria das distribuições.

#!/bin/bash

url="$1"

wget -O "temp_index.html" "$url"

tidy -m "temp_index.html"

title_data=$(grep "<title" "temp_index.html" | head -20 | cut -d'>' -f2-)

if [[ "$title_data" =~ "</title>" ]]; then
    title_data=$(echo "$title_data" | sed 's/........$//')
fi

mv "temp_index.html" "$title_data".html

exit 0

Depois de alguns testes, notei que a formatação da página resulta em </title>estar na próxima linha, mas às vezes não está. Então, adicionei uma verificação para lidar com ambos os cenários.

Salvar como: html_to_title.sh
Alterar modo executável: chmod +x html_to_title.sh
Uso:./html_to_title.sh www.example.com

Não uso o Windows há tanto tempo que isso pode estar desatualizado, e não tenho como testá-lo, mas aqui está uma tentativa de versão do PowerShell.

param (
    [string]$url
)

$tempFile = "temp_index.html"
Invoke-WebRequest -Uri $url -OutFile $tempFile

# Pretty print HTML... Can windows use tidy for this?
$content = Get-Content -Path $tempFile -Raw
$cleanContent = $content

# Compacted HTML will not work, somehow you must use $cleanContent for beautification

Set-Content -Path $tempFile -Value $cleanContent

$titleData = ($cleanContent -match '<title(.*?)</title>') ? $matches[1] : "Untitled"

# Sanitize title for filename, if missed characters, add them here
  
$titleData = $titleData -replace '[<>:"/\\|?*]', '_'  
$newFileName = "$titleData.html"
Rename-Item -Path $tempFile -NewName $newFileName

exit 0

Uso:.\Get-PageTitle.ps1 "http://example.com"

É o melhor que posso fazer quando se trata do Windows.

Destroy666 · Answer 2 · 2024-11-16T22:54:19+08:00

Best Answer

Destroy666

2024-11-16T22:54:19+08:002024-11-16T22:54:19+08:00

Com o PowerShell 5 é muito mais simples obter o título:

(Invoke-WebRequest -Uri https://www.bbc.co.uk/news/articles/c99rgj0xkryo).ParsedHtml.title

No entanto, ParsedHtmlfoi basicamente removido do PowerShell 7, pois as solicitações sempre usam -UseBasicParsing. Então você precisa usar biblioteca externa ou soluções alternativas até que eles talvez o reimplementem.

Então, para limpar nomes de arquivos, existem algumas funções auxiliares para cobrir todos os caracteres, por exemplo, GetInvalidFileNameChars()que podem ser usadas em uma função como esta:

Function Remove-InvalidFileNameChars {
 param(
    [Parameter(Mandatory=$true,
      Position=0,
      ValueFromPipeline=$true,
      ValueFromPipelineByPropertyName=$true)]
    [String]$Name
 )

  $invalidChars = [IO.Path]::GetInvalidFileNameChars() -join ''
  $re = "[{0}]" -f [RegEx]::Escape($invalidChars)
  return ($Name -replace $re)
}

Fonte .

1

Use o título da página para o nome do arquivo HTML quando baixado usando wget

Como posso reduzir o consumo do processo `vmmem`?

Baixar vídeo do Microsoft Stream

O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

Como faço para ativar o WindowsXP agora que o suporte acabou?

Área de trabalho remota congelando intermitentemente

O que significa ter uma máscara de sub-rede /32?

Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

Use o título da página para o nome do arquivo HTML quando baixado usando wget

2 respostas

relate perguntas