我目前正在尝试分析网站的流量。
除了有关请求的资源和时间戳的详细信息外,跟踪系统仅提供请求的 HTTP 引荐来源网址。
在大多数情况下,引荐来源网址为空。鉴于相关网站具有 ssl 证书,我可以假设此流量主要是由于网络爬虫造成的吗?
如果推荐数据不够,我可以收集哪些额外(可访问)数据来识别网络爬虫?
谢谢
我目前正在尝试分析网站的流量。
除了有关请求的资源和时间戳的详细信息外,跟踪系统仅提供请求的 HTTP 引荐来源网址。
在大多数情况下,引荐来源网址为空。鉴于相关网站具有 ssl 证书,我可以假设此流量主要是由于网络爬虫造成的吗?
如果推荐数据不够,我可以收集哪些额外(可访问)数据来识别网络爬虫?
谢谢
尝试将robots.txt添加到您的公共 html 目录并进行上述设置,这将主要指示爬虫不索引您的页面(但这是常规的,机器人仍然可以忽略它)并检查流量是否下降:
因此,最好在您的 Web 服务器中使用具有上述值的HTTP X Robots标头标签并测试流量:
此外,如果引用者为空,则表示已提出直接请求。
您可以使用访问日志来跟踪即将到来的请求并对其进行分析,或者更好地使用诸如Collectd-web 之类的工具。
编辑您的 NGINX 配置
/etc/nginx/nginx.conf
以配置访问日志:重新加载 NGINX 配置: