我正在使用此命令来镜像服务器上的目录树:
wget -m -e robots=off --no-parent --reject-regex index.html --reject-regex aaa --no-verbose --timestamp https://example.com/folders/
“folders”目录有一个.htaccess
包含指令的文件Options +Indexes
。
但是,对于每个目录,它都会创建一个index.html
文件,反映服务器生成的显示该目录索引的页面。
由于它实际上不是一个文件,因此它没有修改时间戳标头。我想阻止 wget 创建该index.html
文件。使用--reject-regex index.html
不行。
您似乎遇到了与 Wget 帖子中的问题相同的问题
How do I Prevent wget from create index.html?C=M;O=A ?
答案都说这些文件是不可避免的,并且是 wget 工作方式的结果 - 这些文件包含要从每个(子)文件夹检索的文件列表。
建议的解决方法是在整个文件夹树的下载完成后删除这些文件,而不是首先阻止它们的创建。
一个建议命令的示例是: