AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 114738
In Process
Mike F
Mike F
Asked: 2010-02-20 11:21:03 +0800 CST2010-02-20 11:21:03 +0800 CST 2010-02-20 11:21:03 +0800 CST

Robots.txt 命令

  • 772

我在 www.example.com/A/B/C/NAME 有一堆文件(A,B,C 变化,NAME 是静态的),我基本上想在 robots.txt 中添加一个命令,这样爬虫就不会跟随任何以 NAME 结尾的此类链接。

在 robots.txt 中为此使用的最佳命令是什么?

robots.txt
  • 7 7 个回答
  • 181 Views

7 个回答

  • Voted
  1. lubos hasko
    2010-02-20T11:27:06+08:002010-02-20T11:27:06+08:00

    这是不可能的。没有官方标准robots.txt,它实际上只是各种网络爬虫试图尊重和正确解释的约定。

    但是Googlebot 支持通配符,所以你可以有这样的部分:

    User-agent: Googlebot
    Disallow: /*NAME
    

    由于大多数网络爬虫不会正确解释通配符并且谁知道他们如何解释它,所以为 googlebot 隔离这条规则可能是安全的,但我认为现在每个大型搜索引擎都可以支持它以及谷歌所做的任何事情搜索成为事实上的标准。

    • 4
  2. curtisk
    2010-02-20T11:20:43+08:002010-02-20T11:20:43+08:00
        User-agent: googlebot
        Disallow: /*NAME
    
        User-Agent: slurp
        Disallow: /*NAME
    
    • 1
  3. palehorse
    2010-02-20T11:31:50+08:002010-02-20T11:31:50+08:00

    我看到你在 Stack Overflow 上交叉发布了这个,但我也会把我的答案放在这里。

    不幸的是,您不能在 Disallow 行中使用通配符,因此没有通配符。对于要排除的每个目录,您都需要有一个禁止行。

    User-agent: *
    Disallow: /A/B/C/NAME/
    Disallow: /D/E/F/NAME/
    

    这很不幸,但标准非常简单,这就是需要做的事情。另请注意,您的禁止行中必须有尾随 /。这是使用 robots.txt 的一个相当不错的参考。

    • 0
  4. Justin Scott
    2010-02-20T11:32:38+08:002010-02-20T11:32:38+08:00

    据我所知,robots.txt 文件解析器不支持模式匹配例程。在这种情况下,您需要使用它们自己的 Disallow 语句列出每个文件。

    请记住,在 robots.txt 文件中列出这些文件将向任何可能想要查看您试图从爬虫“隐藏”的内容的人提供这些链接的列表,因此如果这样做可能存在安全问题是敏感材料。

    如果这些链接是您的服务器提供的 HTML 格式,您还可以rel="nofollow"在这些链接的 A 标记中添加一个,这将阻止大多数爬虫跟踪这些链接。

    • 0
  5. jamieb
    2010-02-20T11:53:57+08:002010-02-20T11:53:57+08:00

    如前所述,robots.txt 规范非常简单。然而,我所做的一件事是创建一个简单命名为“robots.txt”的动态脚本(PHP、Python 等),并让它使用更智能的脚本逻辑智能地生成预期的简单结构。您可以遍历子目录、使用正则表达式等。

    您可能需要稍微调整一下您的网络服务器,使其将“robots.txt”作为脚本执行,而不仅仅是提供文件内容。或者,您可以通过 cron 作业运行脚本,该作业每晚重新生成一次 robots.txt(或者经常需要更新)

    • 0
  6. palehorse
    2010-02-20T11:22:16+08:002010-02-20T11:22:16+08:00

    不幸的是,您不能在 Disallow 行中使用通配符,因此没有通配符。对于要排除的每个目录,您都需要有一个禁止行。

    User-agent: *
    Disallow: /A/B/C/NAME/
    Disallow: /D/E/F/NAME/
    

    这很不幸,但标准非常简单,这就是需要做的事情。另请注意,您的禁止行中必须有尾随 /。这是使用 robots.txt的一个相当不错的参考。

    • 0
  7. Epsilon Prime
    2010-02-20T16:42:48+08:002010-02-20T16:42:48+08:00

    我见过的最好的文档是在robotstxt.org 上。

    • 0

相关问题

  • 在使用 robots.txt 禁用抓取工具的同时让 Google Apps 网站可公开访问?

  • 如何防止搜索引擎将特定网址编入索引

  • robots.txt 和其他 .txt 在 IIS 上返回 404?

  • Robots.txt - 没有关注,没有索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    从 IP 地址解析主机名

    • 8 个回答
  • Marko Smith

    如何按大小对 du -h 输出进行排序

    • 30 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    MikeN 在 Nginx 中,如何在维护子域的同时将所有 http 请求重写为 https? 2009-09-22 06:04:43 +0800 CST
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    0x89 bash中的双方括号和单方括号有什么区别? 2009-08-10 13:11:51 +0800 CST
  • Martin Hope
    Kyle Brandt IPv4 子网如何工作? 2009-08-05 06:05:31 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve