Estou tentando baixar um site inteiro para visualização off-line usando
wget --mirror -p --convert-links https://www.example.com
mas depois que termina, alguns dos documentos HTML não têm extensão. O Windows simplesmente afirma que seu tipo de arquivo é File
. Posso transformá-los em documentos HTML adicionando .html
nomes aos arquivos (usei ren *.* *.html
no prompt de comando), mas os links não funcionam corretamente. Como faço para baixar os documentos HTML como HTMLs OU reestruturar automaticamente os links para trabalhar com os novos arquivos? Existem mais de 10.000 arquivos HTML individuais, então não quero fazer isso manualmente.
Estou executando o Windows 10 e estou usando o terminal Ubuntu 18.04 por meio do Windows Subsystem for Linux.
Então eu descobri. Eu tive que adicionar a opção
-E
, ou--html-extension
, para forçar os arquivos a serem.html
arquivos, tornando a string inteira: