我目前正在尝试分析网站的流量。
除了有关请求的资源和时间戳的详细信息外,跟踪系统仅提供请求的 HTTP 引荐来源网址。
在大多数情况下,引荐来源网址为空。鉴于相关网站具有 ssl 证书,我可以假设此流量主要是由于网络爬虫造成的吗?
如果推荐数据不够,我可以收集哪些额外(可访问)数据来识别网络爬虫?
谢谢
我目前正在尝试分析网站的流量。
除了有关请求的资源和时间戳的详细信息外,跟踪系统仅提供请求的 HTTP 引荐来源网址。
在大多数情况下,引荐来源网址为空。鉴于相关网站具有 ssl 证书,我可以假设此流量主要是由于网络爬虫造成的吗?
如果推荐数据不够,我可以收集哪些额外(可访问)数据来识别网络爬虫?
谢谢
我注意到几个(表面上)无害的日志条目,而且——我承认我对此想得太多了——对 Apache2 响应大小感到好奇。
这个乌克兰爬虫 † 击中了我的网络守护程序,两秒钟后请求复制。Apache2 回复了 41,298 字节,然后是 41,244。
我的问题是:
为什么响应大小不同——只有 54 个字节——对于同一个 URL?
我没有自定义 Apache 的默认缓存声明。如果缓存了某些内容,我预计请求内容的差异接近 100%(或至少超过 0.01%)。
我能想到的只是一个小文件——一个很小的 GIF 或 .css 文件?——莫名其妙地是唯一被缓存的组件,但是搜索该大小的文件没有产生任何结果:
find . -type f -size -55c -size +53c
...搜索 53 或 55 会找到小的 .GIF 文件,并且扩大几个字节会产生更多。扩展这个假设猜测,“丢失的”响应数据可能是一个文件及其各自的路径——但这似乎与我认为缓存的工作方式背道而驰。
我在这里看到了什么?
ANCILLARY
它们是仅有的两个条目:
# grep -r 46.119.77.28 /var/log
/var/log/apache2/example.com-access.log:46.119.77.28 - - [26/Apr/2020:19:56:20 -0600] "GET / HTTP/1.0" 200 41298 "http://www.example.com/" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36 OPR/54.0.2952.64 (Edition Yx)"
/var/log/apache2/example.com-access.log:46.119.77.28 - - [26/Apr/2020:19:56:22 -0600] "GET / HTTP/1.0" 200 41244 "http://www.example.com/" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36 OPR/54.0.2952.64 (Edition Yx)"
† 大约九小时前,它击中了我的另一台服务器,不久之后又击中了另一台。虽然没有积极寻找漏洞,但它显然是在爬网,所以我在原则之外阻止了它——没有立即或计划需要在美国以外的地方建立索引。
大型网站(例如维基百科)如何处理隐藏在其他 IP 掩码器后面的机器人?例如,在我的大学里,每个人都搜索维基百科,给它带来了很大的负担。但是,据我所知,维基百科只能知道大学路由器的 IP,所以如果我设置了一个“释放的”机器人(请求之间只有一点延迟),维基百科可以在不禁止整个组织的情况下禁止我的机器人吗?网站实际上可以禁止组织网络后面的 IP 吗?
我发现 McAfee SiteAdvisor 已将我的网站报告为“可能存在安全问题”。
我不太关心 McAfee 对我的网站的看法(我可以自己保护它,如果没有,McAfee 绝对不是我寻求帮助的公司,非常感谢)。然而,困扰我的是,他们显然在未经我许可的情况下抓取了我的网站。
澄清一下:我的网站上几乎没有内容,只有一些占位符和一些供我个人使用的文件。没有服务条款。
我的问题是:McAffee 是否有权从我的网站下载/抓取内容?我可以禁止他们这样做吗?我觉得应该有某种“我的城堡,我的规则”的原则,但是我对所有法律方面的东西基本上一无所知。
更新:我可能应该提到我的服务器提供商会定期向我发送有关 SiteAdvisor 调查结果的电子邮件——这就是我发现他们的“评级”的方式,这就是我生气的原因。
我想扫描我网站上的所有 url 并获取其中的文件,但问题是,有太多我无法手动执行此操作,那么我该怎么做呢?
只要有某种类型的命令,我无论如何都希望它格式化。
例如:URL/FOLDER URL/FOLDER/FILE URL/FOLDER/FILE2 URL/FOLDER2/FILE
全部在类似 .txt 的文件中
我该怎么做?
网络爬虫已经两次购买我们的网站。它忽略了我们的 robots.txt,并且我们没有使用电子邮件和推特从他们的客户服务或支持部门获得回复。
我不得不根据他们的用户代理字符串创建 url 重定向,我已经将他们的所有请求重定向回他们自己的公共网站。这是正确的做法吗?
编辑 如何返回 40?基于使用 tomcat/tuckey 的用户代理字符串的错误代码?(如果重要的话,我们的网站托管在 Windows 服务器上。)我不能使用 IP 地址,因为机器人使用很多 IP 地址(它显然是基于网格的)。
这部分是由于我们的网站是一个老旧的旧系统,但谷歌的爬虫和 Bing 的爬虫没有把我们打倒,我们的正常业务流量也很好。处理一个机器人的重大投资/开发是不明智的。
我在一个/24
网络中有几个网站,它们都被谷歌定期抓取。通常这很好。但是,当 google 开始同时抓取所有站点时,支持此 IP 块的一小部分服务器可能会受到很大的负载影响。
使用 google 网站管理员工具,您可以对给定域上的 googlebot 进行速率限制,但我还没有找到一种方法来限制通过 IP 网络的 bot。有人有这方面的经验吗?你怎么修好它的?
我注意到我的网站不再被 web.archive.org 归档。当我查看http://web.archive.org/web/ */ http://www.cnn.com时,可以清楚地看到它在 2008 年 7 月停止工作。web.archive.org 有 6 个月-延迟政策。这意味着在爬网运行 6 个月后,最终用户应该可以看到它。因此,它应该从 2009 年底开始进行爬行,而不仅仅是从 2008 年中期开始。
我该怎么做才能让它再次为我工作,是否有官方声明?
我们的网站经常被内容窃贼抓取。我们显然希望让漂亮的机器人和合法的用户活动通过,但阻止有问题的活动。
我们已经在防火墙上尝试了 IP 阻止,但这变成了管理阻止列表。此外,我们使用了 IIS 处理程序,但这会使我们的 Web 应用程序复杂化。
是否有人熟悉可以减少或消除内容抓取工具的网络设备、防火墙或应用程序服务(例如 IIS)?
有人建议我们使用 mysql 进行网站搜索,因为它将在托管我们的 Web 服务器 (nginx) 和我们的数据库 (mysql) 的同一台服务器上运行。
由于并非我们所有的页面都是从数据库创建的,因此建议我们有一个可以爬取站点的爬虫,并将页面 url 和数据折腾到 mysql 并在其上有 sphinx 索引。
有谁知道有一个开箱即用的 mysql 存储选项的开源蜘蛛。
谢谢。