通过网络复制文件

Question

Andy

Asked: 2020-11-14 16:50:44 +0800 CST2020-11-14 16:50:44 +0800 CST 2020-11-14 16:50:44 +0800 CST

缺少 HTTP 引荐来源网址可以识别网络爬虫吗？

我目前正在尝试分析网站的流量。

除了有关请求的资源和时间戳的详细信息外，跟踪系统仅提供请求的 HTTP 引荐来源网址。

在大多数情况下，引荐来源网址为空。鉴于相关网站具有 ssl 证书，我可以假设此流量主要是由于网络爬虫造成的吗？

如果推荐数据不够，我可以收集哪些额外（可访问）数据来识别网络爬虫？

谢谢

Reda Salih · Answer 1 · 2020-11-16T07:42:23+08:00

Best Answer

Reda Salih

尝试将robots.txt添加到您的公共 html 目录并进行上述设置，这将主要指示爬虫不索引您的页面（但这是常规的，机器人仍然可以忽略它）并检查流量是否下降：

    User-agent: * 
    Disallow: /

因此，最好在您的 Web 服务器中使用具有上述值的HTTP X Robots标头标签并测试流量：

noindex, noarchive, nosnippet, nofollow

此外，如果引用者为空，则表示已提出直接请求。

您可以使用访问日志来跟踪即将到来的请求并对其进行分析，或者更好地使用诸如Collectd-web 之类的工具。

编辑您的 NGINX 配置/etc/nginx/nginx.conf以配置访问日志：

access_log <path_to_your_log_dir>/access.log compression buffer=32k;

重新加载 NGINX 配置：

systemctl reload nginx 
OR 
service nginx reload