我想在 Ubuntu 中使用 wget 递归地抓取一个网站,并在下载 300 个页面后停止它。我只保存页面的html文件。目前,这是我正在使用的命令:
wget -r --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL --follow-tags=a
我希望代码以某种方式计算 LOCAL-DIR 中的 html 文件,如果计数器显示 300,则停止爬行。有没有办法做到这一点?
我想在 Ubuntu 中使用 wget 递归地抓取一个网站,并在下载 300 个页面后停止它。我只保存页面的html文件。目前,这是我正在使用的命令:
wget -r --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL --follow-tags=a
我希望代码以某种方式计算 LOCAL-DIR 中的 html 文件,如果计数器显示 300,则停止爬行。有没有办法做到这一点?
你可以尝试这样的事情:
后台您的
wget
命令并记录其 PID ($!
)inotifywatch
在接收目录上设置一个来统计文件wget
当计数超过阈值时终止进程为了说明,使用 shell 函数来模拟递归
wget
: