关于wget
、子文件夹和 index.html 的问题。
假设我在“travels/”文件夹中,它在“website.com”中:“website.com/travels/”。
文件夹“travels/”包含很多文件和其他(子)文件夹:“website.com/travels/list.doc”、“website.com/travels/cover.png”、“website.com/travels/[1990 ] America/" , "website.com/travels/[1994] Japan/" 等等...
如何仅下载所有子文件夹中的所有“.mov”和“.jpg”?我不想从“travels/”中选择文件(例如,不是“website.com/travels/list.doc”)
我找到了一个wget
命令(在 Unix&Linux Exchange 上,我不记得讨论了什么)能够从子文件夹下载它们的“index.html”,而不是其他内容。为什么只下载索引文件?
此命令将仅从给定网站下载图像和电影:
根据wget man:
如果您想下载子文件夹,您需要使用 flag
--no-parent
,类似于以下命令:关于 index.html 网页。一旦该标志
-A
包含在命令中将被排除wget
,因为该标志将强制wget
下载特定类型的文件,这意味着如果html
不包含在要下载的已接受文件列表中(即标志A
),则不会下载并将wget
在终端中输出以下消息:wget
当这些文件存在于提供的 URL 链接中时,可以下载特定类型的文件,例如(jpg、jpeg、png、mov、avi、mpeg、...等)wget
,例如:假设我们想从这个网站下载 .zip 和 .chd 文件
在此链接中有文件夹和 .zip 文件(滚动到最后)。现在,假设我们要运行这个命令:
此命令将下载 .zip 文件,同时它会为 .chd 文件创建一个空文件夹。
为了下载 .chd 文件,我们需要提取空文件夹的名称,然后将这些文件夹名称转换为其实际 URL。然后,将所有感兴趣的 URL 放入一个文本文件
file.txt
中,最后将该文本文件馈送到wget
,如下:前面的命令将找到所有 chd 文件。