我在一个网站上使用 wget 并且所有文件都下载没有错误。具有此类链接的页面:
- website.com/english/apple
- website.com/english/dog
- website.com/english/baby
已下载并正常工作。但是其他带有链接的文件:
- website.com/japanese/おと
- website.com/japanese/ょうき
已下载,并且它们都具有来自站点的默认 404 响应页面。(它并不是字面上说 404,它只是说“你输入了错误的链接”)
我尝试使用命令“--restrict-file-names=ascii”,但同样的事情发生了。
注意:使用该命令后,下载的文件有错误的 utf-8 代码。(其中之一是 %C3%A5%C2%A4%E2%80%A2 解码时,会乱码)
我做了一些搜索,有人提到:“
“wget url-encodes 字节 128-159(在某些 8 位编码中是控制字符)。这是错误的”
这与我的问题有关吗?
我在一个随机的日本博客上找到了一个解决方案。在谷歌的第二页找到它!
只需添加
--local-encoding=UTF-8
我使用并为我工作的完整命令是: