我正在使用 wget 下载一些页面,如果它已经下载,我不希望它下载相同的页面。我使用以下命令:
wget --no-clobber --input text04.txt --directory-prefix =/path/file
** text04.txt 文件每天都有新链接,可能与前几天相同
下载页面时,它们没有扩展名(在 .html 的情况下)。这不会让文件正常打开,但是如果我在 wget 下载后再次执行它时添加扩展名,“--no-clobber”命令是无用的,因为 wget 会考虑使用新文件添加 .html。
您想添加扩展名 (.html) 并且在重新执行 wget 时不要多次下载同一个文件?
您需要添加一个选项
--html-extension
,以便命令如下所示:这样
.html
扩展程序将自动添加。请参阅此答案以获取更多信息。
注意事项:
不幸
wget
的是,无法.html
在检查阶段添加扩展。因此,如果远程页面没有扩展名,它总是会在指定选项时重新下载页面,--no-clobber
但它至少会更新和覆盖页面的现有本地副本,而不是写入另一个副本。--html-extension
.html
祝你好运