Baixe apenas um port da coleção de Ports do FreeBSD

Question

Lahor

Asked: 2022-03-15 03:08:41 +0800 CST2022-03-15 03:08:41 +0800 CST 2022-03-15 03:08:41 +0800 CST

Como baixar um arquivo HTML como texto simples? [duplicado]

772

Se alguém baixar uma página da Web com curlou wgetse for html.

Mas se eu quiser baixá-lo como texto simples (ou seja, sem análise de HTML), exatamente ou quase exatamente como seria lido claramente em um navegador da Web (com qualquer imagem/vídeo/áudio omitido, é claro), qual seria uma maneira fazer isso?

2 respostas

Voted

Marcus Müller · Answer 1 · 2022-03-15T03:25:49+08:00

Best Answer

Marcus Müller

2022-03-15T03:25:49+08:002022-03-15T03:25:49+08:00

você não pode baixar isso, ele não existe no servidor. O servidor envia o HTML, o trabalho do navegador é exibi-lo. E parte disso (pode ser) é mostrar o texto.

Na verdade, muitas páginas da web são bastante vazias e carregam o conteúdo relevante à medida que você lê.

Então, o que você precisa é de um navegador funcional, que exiba seu texto, então você precisa obter esse texto.

Você normalmente faria isso controlando remotamente um navegador a partir de uma linguagem de script: você inicia o navegador em um modo "daemon" especial, você se conecta a ele e, usando uma interface de controle de navegador especialmente criada (WebDriver), você o informa para vá para um URL, espere um segundo para deixar o navegador renderizar o que você veria na tela, normalmente, e então diga para salvar como um arquivo de texto simples.

1

frabjous · Answer 2 · 2022-03-15T07:07:53+08:00

frabjous

2022-03-15T07:07:53+08:002022-03-15T07:07:53+08:00

Pessoalmente, eu usaria pandoc para isso.

pandoc -t plain 'https://example.com/something/'

Para salvar em um arquivo:

pandoc -t plain 'https://example.com/something/' -o output.txt

Obviamente, isso só funcionará bem para sites principalmente de texto que não dependem de javascript para preencher a página.

1

Como baixar um arquivo HTML como texto simples? [duplicado]

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como baixar um arquivo HTML como texto simples? [duplicado]

2 respostas

relate perguntas