假设我运行 wget 来下载包含多个页面的网站或论坛主题并在最后一页开始下载,但正如您所知,它们始终链接到第一页和最后一页,因此 wget 将不断下载这些页面 - 因为它们总是存在- 当它正在下载所有其他页面时?
例如我运行:
wget --mirror https://ubuntuforums.org/showthread.php?t=1422475&page=9
如您所见,该线程具有链接到第一页和最后一页的按钮,并且始终显示这两个按钮,因此当 wget 下载该 URL 时,它将在转到第 8 页时下载第一个和最后一个,然后在第 7 页上再次下载并再次在第 6 页上,依此类推,否则它会记住它已经解析了第 1 页和第 9 页(第一页和最后一页),因此它会忽略后续页面上的那些?
我不想通过不断请求我已经拥有的 URL 来使我想要存档的服务器超载。
不,
wget
它足够聪明,可以跟踪它下载了哪些 URL。它甚至有一个功能可以利用这一点:您也可以很容易地验证这一点,例如使用以下两个 HTML 文件:
并使用调试输出
wget
递归检索说:foo.html