我正在使用以下命令镜像一个网站:
wget -m -nc -p -E -k -np -e robots=off https://www.somesite.com/ & disown
一切都很好,直到我看到它卡在了
Reusing existing connection to www.somesite.com:443.
我关闭了那个tty。
我应该怎么做才能让它继续?
这是 wget 输出的一部分:
www.somesite.com/.../sport.html [ <=> ] 833.32K 1.53MB/s in 0.5s
Last-modified header missing -- time-stamps turned off.
2018-02-10 16:34:23 (1.53 MB/s) - ‘www.somesite.com/.../sport.html’ saved [853319]
--2018-02-10 16:34:23-- http://www.somesite.com/.../social
Reusing existing connection to www.somesite.com:80.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘www.somesite.com/.../social.html’
www.somesite.com/.../social.html [ <=> ] 141.35K 816KB/s in 0.2s
Last-modified header missing -- time-stamps turned off.
2018-02-10 16:34:24 (816 KB/s) - ‘www.somesite.com/.../social.html’ saved [144747]
--2018-02-10 16:34:24-- http://www.somesite.com/.../parliament
Reusing existing connection to www.somesite.com:80.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘www.somesite.com/.../parliament.html’
我使用的命令是:
wget -m -c -p -E -k -np -e robots=off https://www.somesite.com
有没有办法指示 wget 不下载它之前已经下载的相同 url?
只需再次运行该命令。
wget
足够聪明,可以继续下载。但是,您必须指定正确的选项。例如,
-nc
如果您想重新下载更改的文件,请删除该选项(另请参阅如果 wget 中存在文件,则跳过下载?):如果在下载大文件期间下载中断,您可能需要添加
-c
选项:报价来源:
man wget
您还应该考虑使用
screen
ortmux
而不是disown
能够检查后台进程的状态和输出。