为什么 SFTP 在下载期间会超时？

Question

churchill

Asked: 2021-01-30 01:34:43 +0800 CST2021-01-30 01:34:43 +0800 CST 2021-01-30 01:34:43 +0800 CST

wget 是否记得每个作业已经下载了哪个 URL？

772

假设我运行 wget 来下载包含多个页面的网站或论坛主题并在最后一页开始下载，但正如您所知，它们始终链接到第一页和最后一页，因此 wget 将不断下载这些页面 - 因为它们总是存在- 当它正在下载所有其他页面时？

例如我运行：

wget --mirror https://ubuntuforums.org/showthread.php?t=1422475&page=9

如您所见，该线程具有链接到第一页和最后一页的按钮，并且始终显示这两个按钮，因此当 wget 下载该 URL 时，它将在转到第 8 页时下载第一个和最后一个，然后在第 7 页上再次下载并再次在第 6 页上，依此类推，否则它会记住它已经解析了第 1 页和第 9 页（第一页和最后一页），因此它会忽略后续页面上的那些？

我不想通过不断请求我已经拥有的 URL 来使我想要存档的服务器超载。

1 个回答

Voted

muru · Answer 1 · 2021-01-30T03:31:12+08:00

不，wget它足够聪明，可以跟踪它下载了哪些 URL。它甚至有一个功能可以利用这一点：

-k
--convert-links

下载完成后，将文档中的链接进行转换，使其适合本地查看。这不仅影响可见的超链接，还影响链接到外部内容的文档的任何部分，例如嵌入的图像、到样式表的链接、到非 HTML 内容的超链接等。

每个链接将通过以下两种方式之一进行更改：

Wget 已下载的文件的链接将更改为将它们指向的文件作为相对链接引用。

示例：如果下载的文件/foo/doc.html链接到/bar/img.gif，也下载了，那么链接中的链接doc.html将被修改为指向“ ../bar/img.gif”。这种转换对于目录的任意组合可靠地工作。

Wget 尚未下载的文件的链接将更改为包括主机名和它们指向的位置的绝对路径。

示例：如果下载的文件/foo/doc.html链接到/bar/img.gif（或../bar/img.gif），则 doc.html 中的链接将被修改为指向http://hostname/bar/img.gif。

因此，本地浏览工作可靠：如果下载了链接文件，则链接将引用其本地名称；如果未下载，则链接将引用其完整的 Internet 地址，而不是显示断开的链接。以前的链接转换为相对链接这一事实确保您可以将下载的层次结构移动到另一个目录。

您也可以很容易地验证这一点，例如使用以下两个 HTML 文件：

==> foo.html <==
<html>
    <body>
        <a href="bar.html">bar</a>
    </body>
</html>

==> bar.html <==
<html>
    <body>
        <a href="foo.html">foo</a>
    </body>
</html>

并使用调试输出wget递归检索说：foo.html

...
bar.html: merge(‘http://localhost:8000/bar.html’, ‘foo.html’) -> http://localhost:8000/foo.html
appending ‘http://localhost:8000/foo.html’ to urlpos.
no-follow in bar.html: 0
Deciding whether to enqueue "http://localhost:8000/foo.html".
Already on the black list.
Decided NOT to load it.
FINISHED --2021-01-29 20:20:29--
Total wall clock time: 0.003s
Downloaded: 2 files, 122 in 0s (16.2 MB/s)

wget 是否记得每个作业已经下载了哪个 URL？

如何运行 .sh 脚本？

如何安装 .tar.gz（或 .tar.bz2）文件？

如何列出所有已安装的软件包

无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗？

wget 是否记得每个作业已经下载了哪个 URL？

1 个回答

相关问题