AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 118568
Accepted
drodecker
drodecker
Asked: 2010-03-03 17:21:29 +0800 CST2010-03-03 17:21:29 +0800 CST 2010-03-03 17:21:29 +0800 CST

防火墙 - 防止内容盗窃和流氓爬虫

  • 772

我们的网站经常被内容窃贼抓取。我们显然希望让漂亮的机器人和合法的用户活动通过,但阻止有问题的活动。

我们已经在防火墙上尝试了 IP 阻止,但这变成了管理阻止列表。此外,我们使用了 IIS 处理程序,但这会使我们的 Web 应用程序复杂化。

是否有人熟悉可以减少或消除内容抓取工具的网络设备、防火墙或应用程序服务(例如 IIS)?

firewall security iis web-crawler content-management
  • 3 3 个回答
  • 690 Views

3 个回答

  • Voted
  1. Best Answer
    Rob W
    2010-03-11T21:40:56+08:002010-03-11T21:40:56+08:00

    如果抓取工具是机器人而不是人类,您可以尝试创建一个蜜罐目录,它们将通过该目录中的“默认页面”脚本自动抓取并被阻止(通过 IP 地址)。人类可以轻松解锁自己,但它会阻止机器人,因为他们会在任何进一步的访问中收到 403“未授权”错误。我使用这样的技术来阻止不遵守 robots.txt 的不良机器人,但不会永久阻止共享相同 IP 或“意外”导航到阻止脚本的人类。这样,如果共享 IP 被阻止,它就不是永久性的。就是这样:

    我在 robots.txt 中阻止的一个或多个子目录(文件夹)中设置了默认(脚本)页面。如果该页面由行为不端的机器人(或窥探者)加载,则会将其 IP 地址添加到阻止列表中。但是我有一个 403(“未授权”)错误处理程序,它将这些被阻止的 IP 重定向到一个页面,解释正在发生的事情并包含一个人类可以用来解锁 IP 的验证码。这样一来,如果一个 IP 被阻止是因为一个人曾经出于恶意目的使用它,那么下一个获得该 IP 的人将不会被永久阻止 - 只是有点不便。当然,如果一个特定的 IP 经常被重新阻止,我可以手动采取进一步的步骤来解决这个问题。

    这是逻辑:

    1. 如果 IP 没有被封锁,则允许正常访问。
    2. 如果访客导航到禁止区域,请阻止他们的 IP。
    3. 如果 IP 被阻止,将所有访问重定向到包含验证码的“解除阻止”表单。
    4. 如果用户手动输入正确的验证码,请从阻止列表中删除 IP(并记录该事实)。
    5. 冲洗、起泡、重复上述步骤以进行进一步操作。

    而已!一个脚本文件来处理阻止通知和取消阻止验证码提交。robots.txt 文件中的一项(最少)。htaccess 文件中的一个 403 重定向。

    • 2
  2. Eddy
    2010-03-03T22:41:17+08:002010-03-03T22:41:17+08:00

    检查请求标头?取决于他们是否是孩子,这可能就足够了

    • 0
  3. Tom O'Connor
    2010-03-03T23:30:02+08:002010-03-03T23:30:02+08:00

    您需要一个执行 HTTP 检查的硬件防火墙。恐怕这不会便宜。

    我似乎记得 Cisco ASA 5520 可以做到这一点,但其中一个的标价约为 4600 英镑 ~= 6900 美元。

    您可能可以使用运行防火墙应用程序的 linux 机器执行类似的操作,而成本只是其中的一小部分。

    • 0

相关问题

  • 用 D-LINK DFL-CPG310 防火墙替换 Cisco Pix 防火墙

  • MSMQ 防火墙端口

  • IP-KVM(在我的例子中是 ADDER Ipeps):轻松防火墙穿越

  • 远程连接 sql server 不工作,但如果防火墙禁用它呢?

  • 服务器 2003 R2 上的 Cisco VPN 客户端

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    从 IP 地址解析主机名

    • 8 个回答
  • Marko Smith

    如何按大小对 du -h 输出进行排序

    • 30 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    MikeN 在 Nginx 中,如何在维护子域的同时将所有 http 请求重写为 https? 2009-09-22 06:04:43 +0800 CST
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    0x89 bash中的双方括号和单方括号有什么区别? 2009-08-10 13:11:51 +0800 CST
  • Martin Hope
    Kyle Brandt IPv4 子网如何工作? 2009-08-05 06:05:31 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve