在使用 robots.txt 禁用抓取工具的同时让 Google Apps 网站可公开访问？

Question

Mike F

Asked: 2010-02-20 11:21:03 +0800 CST2010-02-20 11:21:03 +0800 CST 2010-02-20 11:21:03 +0800 CST

Robots.txt 命令

772

我在 www.example.com/A/B/C/NAME 有一堆文件（A，B，C 变化，NAME 是静态的），我基本上想在 robots.txt 中添加一个命令，这样爬虫就不会跟随任何以 NAME 结尾的此类链接。

在 robots.txt 中为此使用的最佳命令是什么？

7 个回答

Voted

lubos hasko · Answer 1 · 2010-02-20T11:27:06+08:00

lubos hasko

2010-02-20T11:27:06+08:002010-02-20T11:27:06+08:00

这是不可能的。没有官方标准robots.txt，它实际上只是各种网络爬虫试图尊重和正确解释的约定。

但是Googlebot 支持通配符，所以你可以有这样的部分：

User-agent: Googlebot
Disallow: /*NAME

由于大多数网络爬虫不会正确解释通配符并且谁知道他们如何解释它，所以为 googlebot 隔离这条规则可能是安全的，但我认为现在每个大型搜索引擎都可以支持它以及谷歌所做的任何事情搜索成为事实上的标准。

4

curtisk · Answer 2 · 2010-02-20T11:20:43+08:00

curtisk

2010-02-20T11:20:43+08:002010-02-20T11:20:43+08:00

    User-agent: googlebot
    Disallow: /*NAME

    User-Agent: slurp
    Disallow: /*NAME

1

palehorse · Answer 3 · 2010-02-20T11:31:50+08:00

palehorse

2010-02-20T11:31:50+08:002010-02-20T11:31:50+08:00

我看到你在 Stack Overflow 上交叉发布了这个，但我也会把我的答案放在这里。

不幸的是，您不能在 Disallow 行中使用通配符，因此没有通配符。对于要排除的每个目录，您都需要有一个禁止行。

User-agent: *
Disallow: /A/B/C/NAME/
Disallow: /D/E/F/NAME/

这很不幸，但标准非常简单，这就是需要做的事情。另请注意，您的禁止行中必须有尾随 /。这是使用 robots.txt 的一个相当不错的参考。

0

Justin Scott · Answer 4 · 2010-02-20T11:32:38+08:00

Justin Scott

2010-02-20T11:32:38+08:002010-02-20T11:32:38+08:00

据我所知，robots.txt 文件解析器不支持模式匹配例程。在这种情况下，您需要使用它们自己的 Disallow 语句列出每个文件。

请记住，在 robots.txt 文件中列出这些文件将向任何可能想要查看您试图从爬虫“隐藏”的内容的人提供这些链接的列表，因此如果这样做可能存在安全问题是敏感材料。

如果这些链接是您的服务器提供的 HTML 格式，您还可以rel="nofollow"在这些链接的 A 标记中添加一个，这将阻止大多数爬虫跟踪这些链接。

0

jamieb · Answer 5 · 2010-02-20T11:53:57+08:00

jamieb

2010-02-20T11:53:57+08:002010-02-20T11:53:57+08:00

如前所述，robots.txt 规范非常简单。然而，我所做的一件事是创建一个简单命名为“robots.txt”的动态脚本（PHP、Python 等），并让它使用更智能的脚本逻辑智能地生成预期的简单结构。您可以遍历子目录、使用正则表达式等。

您可能需要稍微调整一下您的网络服务器，使其将“robots.txt”作为脚本执行，而不仅仅是提供文件内容。或者，您可以通过 cron 作业运行脚本，该作业每晚重新生成一次 robots.txt（或者经常需要更新）

0

palehorse · Answer 6 · 2010-02-20T11:22:16+08:00

palehorse

2010-02-20T11:22:16+08:002010-02-20T11:22:16+08:00

不幸的是，您不能在 Disallow 行中使用通配符，因此没有通配符。对于要排除的每个目录，您都需要有一个禁止行。

User-agent: *
Disallow: /A/B/C/NAME/
Disallow: /D/E/F/NAME/

这很不幸，但标准非常简单，这就是需要做的事情。另请注意，您的禁止行中必须有尾随 /。这是使用 robots.txt的一个相当不错的参考。

0

Epsilon Prime · Answer 7 · 2010-02-20T16:42:48+08:00

Epsilon Prime

2010-02-20T16:42:48+08:002010-02-20T16:42:48+08:00

我见过的最好的文档是在robotstxt.org 上。

0

Robots.txt 命令

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

从 IP 地址解析主机名

如何按大小对 du -h 输出进行排序

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

Robots.txt 命令

7 个回答

相关问题