关于【web-crawler】的问题- 第1页

David Christian

Asked: 2025-01-16 23:49:59 +0800 CST

是否可以在 robots.txt 中匹配两个不同的禁止规则，一个通过通配符，另一个通过名称？

5

我有一个 robots.txt 文件，如下所示：

    User-agent: *
    Disallow: /account/
    Disallow: /captcha/
    Disallow: /checkout/
    
    User-agent: DataForSeoBot
    Disallow: /p-

    User-agent: UptimeRobot
    Disallow: /p-

我的通配符禁止规则中有几十个文件和文件夹。然后我想另外阻止特定爬虫程序（如 DataForSeoBot）访问以 /p- 开头的 URL。在为 DataForSeo 添加特定规则之前，它在我的通配符规则中看到的是长长的 URL 列表。在我根据他们的机器人名称添加了额外的特定规则后，DataForSeoBot 现在看到的唯一禁止规则是 /p- 规则。他们是否错误地读取了 robots.txt 文件，还是我写错了？我希望我不必为每个我想禁止 /p- 的爬虫程序重复整个第一条规则，因为大约有十几个。我还尝试将特定的按名称规则移到通配符规则之前的顶部，但这没什么区别。

我正在测试使用他们网站上的功能来查看他们如何读取 robots.txt 文件。

Andy

Asked: 2020-11-14 16:50:44 +0800 CST

缺少 HTTP 引荐来源网址可以识别网络爬虫吗？

0

我目前正在尝试分析网站的流量。

除了有关请求的资源和时间戳的详细信息外，跟踪系统仅提供请求的 HTTP 引荐来源网址。

在大多数情况下，引荐来源网址为空。鉴于相关网站具有 ssl 证书，我可以假设此流量主要是由于网络爬虫造成的吗？

如果推荐数据不够，我可以收集哪些额外（可访问）数据来识别网络爬虫？

谢谢

zedmelon

Asked: 2020-04-27 11:51:28 +0800 CST

为什么 Apache 会为同一个 url 记录不同的响应大小？

1

我注意到几个（表面上）无害的日志条目，而且——我承认我对此想得太多了——对 Apache2 响应大小感到好奇。

这个乌克兰爬虫 † 击中了我的网络守护程序，两秒钟后请求复制。Apache2 回复了 41,298 字节，然后是 41,244。

我的问题是：
为什么响应大小不同——只有 54 个字节——对于同一个 URL？

我没有自定义 Apache 的默认缓存声明。如果缓存了某些内容，我预计请求内容的差异接近 100%（或至少超过 0.01%）。

我能想到的只是一个小文件——一个很小的 GIF 或 .css 文件？——莫名其妙地是唯一被缓存的组件，但是搜索该大小的文件没有产生任何结果：

find . -type f -size -55c -size +53c

...搜索 53 或 55 会找到小的 .GIF 文件，并且扩大几个字节会产生更多。扩展这个假设猜测，“丢失的”响应数据可能是一个文件及其各自的路径——但这似乎与我认为缓存的工作方式背道而驰。

我在这里看到了什么？

ANCILLARY
它们是仅有的两个条目：

# grep -r 46.119.77.28 /var/log
/var/log/apache2/example.com-access.log:46.119.77.28 - - [26/Apr/2020:19:56:20 -0600] "GET / HTTP/1.0" 200 41298 "http://www.example.com/" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36 OPR/54.0.2952.64 (Edition Yx)"
/var/log/apache2/example.com-access.log:46.119.77.28 - - [26/Apr/2020:19:56:22 -0600] "GET / HTTP/1.0" 200 41244 "http://www.example.com/" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36 OPR/54.0.2952.64 (Edition Yx)"

† 大约九小时前，它击中了我的另一台服务器，不久之后又击中了另一台。虽然没有积极寻找漏洞，但它显然是在爬网，所以我在原则之外阻止了它——没有立即或计划需要在美国以外的地方建立索引。

user4052054

Asked: 2016-04-19 10:11:25 +0800 CST

网站如何检测代理或公司网络背后的机器人

12

大型网站（例如维基百科）如何处理隐藏在其他 IP 掩码器后面的机器人？例如，在我的大学里，每个人都搜索维基百科，给它带来了很大的负担。但是，据我所知，维基百科只能知道大学路由器的 IP，所以如果我设置了一个“释放的”机器人（请求之间只有一点延迟），维基百科可以在不禁止整个组织的情况下禁止我的机器人吗？网站实际上可以禁止组织网络后面的 IP 吗？

kralyk

Asked: 2014-08-15 11:36:19 +0800 CST

公司是否有隐含的权利来抓取我的网站？

30

我发现 McAfee SiteAdvisor 已将我的网站报告为“可能存在安全问题”。

我不太关心 McAfee 对我的网站的看法（我可以自己保护它，如果没有，McAfee 绝对不是我寻求帮助的公司，非常感谢）。然而，困扰我的是，他们显然在未经我许可的情况下抓取了我的网站。

澄清一下：我的网站上几乎没有内容，只有一些占位符和一些供我个人使用的文件。没有服务条款。

我的问题是：McAffee 是否有权从我的网站下载/抓取内容？我可以禁止他们这样做吗？我觉得应该有某种“我的城堡，我的规则”的原则，但是我对所有法律方面的东西基本上一无所知。

更新：我可能应该提到我的服务器提供商会定期向我发送有关 SiteAdvisor 调查结果的电子邮件——这就是我发现他们的“评级”的方式，这就是我生气的原因。

user151015

Asked: 2012-12-27 18:15:02 +0800 CST

如何扫描我的文件夹以查找网站？像爬虫？

0

我想扫描我网站上的所有 url 并获取其中的文件，但问题是，有太多我无法手动执行此操作，那么我该怎么做呢？

只要有某种类型的命令，我无论如何都希望它格式化。

例如：URL/FOLDER URL/FOLDER/FILE URL/FOLDER/FILE2 URL/FOLDER2/FILE

全部在类似 .txt 的文件中

我该怎么做？

NimChimpsky

Asked: 2012-06-16 00:35:30 +0800 CST

重定向时的道德/法律考虑

2

网络爬虫已经两次购买我们的网站。它忽略了我们的 robots.txt，并且我们没有使用电子邮件和推特从他们的客户服务或支持部门获得回复。

我不得不根据他们的用户代理字符串创建 url 重定向，我已经将他们的所有请求重定向回他们自己的公共网站。这是正确的做法吗？

编辑如何返回 40？基于使用 tomcat/tuckey 的用户代理字符串的错误代码？（如果重要的话，我们的网站托管在 Windows 服务器上。）我不能使用 IP 地址，因为机器人使用很多 IP 地址（它显然是基于网格的）。

这部分是由于我们的网站是一个老旧的旧系统，但谷歌的爬虫和 Bing 的爬虫没有把我们打倒，我们的正常业务流量也很好。处理一个机器人的重大投资/开发是不明智的。

Zak

Asked: 2010-04-03 14:32:09 +0800 CST

如何限制谷歌对我的 IP 块的抓取？

7

我在一个/24网络中有几个网站，它们都被谷歌定期抓取。通常这很好。但是，当 google 开始同时抓取所有站点时，支持此 IP 块的一小部分服务器可能会受到很大的负载影响。

使用 google 网站管理员工具，您可以对给定域上的 googlebot 进行速率限制，但我还没有找到一种方法来限制通过 IP 网络的 bot。有人有这方面的经验吗？你怎么修好它的？

Asked: 2010-03-06 03:28:39 +0800 CST

让 web.archive.org 再次存档网站

0

我注意到我的网站不再被 web.archive.org 归档。当我查看http://web.archive.org/web/ */ http://www.cnn.com时，可以清楚地看到它在 2008 年 7 月停止工作。web.archive.org 有 6 个月-延迟政策。这意味着在爬网运行 6 个月后，最终用户应该可以看到它。因此，它应该从 2009 年底开始进行爬行，而不仅仅是从 2008 年中期开始。

我该怎么做才能让它再次为我工作，是否有官方声明？

drodecker

Asked: 2010-03-03 17:21:29 +0800 CST

防火墙 - 防止内容盗窃和流氓爬虫

3

我们的网站经常被内容窃贼抓取。我们显然希望让漂亮的机器人和合法的用户活动通过，但阻止有问题的活动。

我们已经在防火墙上尝试了 IP 阻止，但这变成了管理阻止列表。此外，我们使用了 IIS 处理程序，但这会使我们的 Web 应用程序复杂化。

是否有人熟悉可以减少或消除内容抓取工具的网络设备、防火墙或应用程序服务（例如 IIS）？

是否可以在 robots.txt 中匹配两个不同的禁止规则，一个通过通配符，另一个通过名称？

缺少 HTTP 引荐来源网址可以识别网络爬虫吗？

为什么 Apache 会为同一个 url 记录不同的响应大小？

网站如何检测代理或公司网络背后的机器人

公司是否有隐含的权利来抓取我的网站？

如何扫描我的文件夹以查找网站？像爬虫？

重定向时的道德/法律考虑

如何限制谷歌对我的 IP 块的抓取？

让 web.archive.org 再次存档网站

防火墙 - 防止内容盗窃和流氓爬虫

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

问题[web-crawler](server)