我们的网站经常被内容窃贼抓取。我们显然希望让漂亮的机器人和合法的用户活动通过,但阻止有问题的活动。
我们已经在防火墙上尝试了 IP 阻止,但这变成了管理阻止列表。此外,我们使用了 IIS 处理程序,但这会使我们的 Web 应用程序复杂化。
是否有人熟悉可以减少或消除内容抓取工具的网络设备、防火墙或应用程序服务(例如 IIS)?
我们的网站经常被内容窃贼抓取。我们显然希望让漂亮的机器人和合法的用户活动通过,但阻止有问题的活动。
我们已经在防火墙上尝试了 IP 阻止,但这变成了管理阻止列表。此外,我们使用了 IIS 处理程序,但这会使我们的 Web 应用程序复杂化。
是否有人熟悉可以减少或消除内容抓取工具的网络设备、防火墙或应用程序服务(例如 IIS)?
如果抓取工具是机器人而不是人类,您可以尝试创建一个蜜罐目录,它们将通过该目录中的“默认页面”脚本自动抓取并被阻止(通过 IP 地址)。人类可以轻松解锁自己,但它会阻止机器人,因为他们会在任何进一步的访问中收到 403“未授权”错误。我使用这样的技术来阻止不遵守 robots.txt 的不良机器人,但不会永久阻止共享相同 IP 或“意外”导航到阻止脚本的人类。这样,如果共享 IP 被阻止,它就不是永久性的。就是这样:
我在 robots.txt 中阻止的一个或多个子目录(文件夹)中设置了默认(脚本)页面。如果该页面由行为不端的机器人(或窥探者)加载,则会将其 IP 地址添加到阻止列表中。但是我有一个 403(“未授权”)错误处理程序,它将这些被阻止的 IP 重定向到一个页面,解释正在发生的事情并包含一个人类可以用来解锁 IP 的验证码。这样一来,如果一个 IP 被阻止是因为一个人曾经出于恶意目的使用它,那么下一个获得该 IP 的人将不会被永久阻止 - 只是有点不便。当然,如果一个特定的 IP 经常被重新阻止,我可以手动采取进一步的步骤来解决这个问题。
这是逻辑:
而已!一个脚本文件来处理阻止通知和取消阻止验证码提交。robots.txt 文件中的一项(最少)。htaccess 文件中的一个 403 重定向。
检查请求标头?取决于他们是否是孩子,这可能就足够了
您需要一个执行 HTTP 检查的硬件防火墙。恐怕这不会便宜。
我似乎记得 Cisco ASA 5520 可以做到这一点,但其中一个的标价约为 4600 英镑 ~= 6900 美元。
您可能可以使用运行防火墙应用程序的 linux 机器执行类似的操作,而成本只是其中的一小部分。