usei o wget em um site e todos os arquivos foram baixados sem erros. as páginas que tem esse tipo de link:
- website.com/english/apple
- website.com/english/dog
- website.com/english/baby
foram baixados e funcionando corretamente. porém outros arquivos com link:
- website.com/japanese/おと
- website.com/japanese/ょうき
foram baixados e todos eles têm a página de resposta 404 padrão do site. (não diz literalmente 404, apenas diz algo como "você digitou o link errado")
tentei usar o comando "--restrict-file-names=ascii" mas aconteceu a mesma coisa.
nota: depois de usar o comando, os arquivos baixados tinham códigos utf-8 ruins. (um deles é %C3%A5%C2%A4%E2%80%A2 ao decodificá-lo, vai dar rabiscos)
Eu fiz algumas pesquisas e alguém mencionou que : "
"wget url-codifica bytes 128-159 (que são caracteres de controle em algumas codificações de 8 bits). Isso está errado"
isso está relacionado ao meu problema?
Encontrei uma solução em um blog japonês aleatório. encontrei na segunda página do google!!
apenas adicione
--local-encoding=UTF-8
o comando completo que usei e funcionou para mim é: