如果响应时间 > 5 秒，Wget 安排发送邮件

Question

Arman Malekzadeh

Asked: 2020-03-15 09:44:39 +0800 CST2020-03-15 09:44:39 +0800 CST 2020-03-15 09:44:39 +0800 CST

如何使用 wget 抓取网站，直到保存 300 个 html 页面

772

我想在 Ubuntu 中使用 wget 递归地抓取一个网站，并在下载 300 个页面后停止它。我只保存页面的html文件。目前，这是我正在使用的命令：

wget -r --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL --follow-tags=a

我希望代码以某种方式计算 LOCAL-DIR 中的 html 文件，如果计数器显示 300，则停止爬行。有没有办法做到这一点？

1 个回答

Voted

steeldriver · Answer 1 · 2020-03-15T15:25:31+08:00

Best Answer

steeldriver

2020-03-15T15:25:31+08:002020-03-15T15:25:31+08:00

你可以尝试这样的事情：

后台您的wget命令并记录其 PID ( $!)
inotifywatch在接收目录上设置一个来统计文件
wget当计数超过阈值时终止进程

为了说明，使用 shell 函数来模拟递归wget：

#!/bin/bash

local_dir=tmp

wgetcmd() {
  local i=0

  while :
  do 
    # simulate page download
    echo "Downloading... $((++i))"
    touch "$local_dir/file${i}.html"
    sleep 2
  done
}

wgetcmd & pid=$!

j=1
while kill -s 0 $pid && read path action file
do
  if (( ++j >= 30 )); then
    echo "Reached page limit"
    kill $pid
    break;
  fi
done < <(inotifywait -m "$local_dir" -e close_write)

2

如何使用 wget 抓取网站，直到保存 300 个 html 页面

如何运行 .sh 脚本？

如何安装 .tar.gz（或 .tar.bz2）文件？

如何列出所有已安装的软件包

无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗？

如何使用 wget 抓取网站，直到保存 300 个 html 页面

1 个回答

相关问题