No Google Chrome, quando vamos para o modo de desenvolvimento, right-clickum elemento HTML → Copiar → Copiar elemento , podemos copiar o conteúdo HTML de uma página web. Abaixo está um exemplo do procedimento que descrevi:
Meu problema é que, quando uso wget
para baixar a página da web, recebo o código-fonte da página, incluindo seus endereços e scripts JavaScript.
Eu gostaria de usar a linha de comando para baixar o resultado HTML final de uma página, assim como o Google Chrome faz no meu exemplo. Obter o conteúdo HTML que está sendo exibido na página seria útil para automatizar a extração de informações de páginas da web para mim.
É possível baixar o HTML de uma página (não o código-fonte) usando wget
ou outras ferramentas de linha de comando?
Como o Google Chrome está instalado, você pode obter a estrutura HTML interna da página da Web executando no terminal:
Substitua
URL
pelo URL da página da Web que você deseja. O HTML DOM da página será salvo em um arquivo nomeadofile.html
em seu diretório inicial.