我在 www.example.com/A/B/C/NAME 有一堆文件(A,B,C 变化,NAME 是静态的),我基本上想在 robots.txt 中添加一个命令,这样爬虫就不会跟随任何以 NAME 结尾的此类链接。
在 robots.txt 中为此使用的最佳命令是什么?
我在 www.example.com/A/B/C/NAME 有一堆文件(A,B,C 变化,NAME 是静态的),我基本上想在 robots.txt 中添加一个命令,这样爬虫就不会跟随任何以 NAME 结尾的此类链接。
在 robots.txt 中为此使用的最佳命令是什么?
这是不可能的。没有官方标准
robots.txt
,它实际上只是各种网络爬虫试图尊重和正确解释的约定。但是Googlebot 支持通配符,所以你可以有这样的部分:
由于大多数网络爬虫不会正确解释通配符并且谁知道他们如何解释它,所以为 googlebot 隔离这条规则可能是安全的,但我认为现在每个大型搜索引擎都可以支持它以及谷歌所做的任何事情搜索成为事实上的标准。
我看到你在 Stack Overflow 上交叉发布了这个,但我也会把我的答案放在这里。
不幸的是,您不能在 Disallow 行中使用通配符,因此没有通配符。对于要排除的每个目录,您都需要有一个禁止行。
这很不幸,但标准非常简单,这就是需要做的事情。另请注意,您的禁止行中必须有尾随 /。这是使用 robots.txt 的一个相当不错的参考。
据我所知,robots.txt 文件解析器不支持模式匹配例程。在这种情况下,您需要使用它们自己的 Disallow 语句列出每个文件。
请记住,在 robots.txt 文件中列出这些文件将向任何可能想要查看您试图从爬虫“隐藏”的内容的人提供这些链接的列表,因此如果这样做可能存在安全问题是敏感材料。
如果这些链接是您的服务器提供的 HTML 格式,您还可以
rel="nofollow"
在这些链接的 A 标记中添加一个,这将阻止大多数爬虫跟踪这些链接。如前所述,robots.txt 规范非常简单。然而,我所做的一件事是创建一个简单命名为“robots.txt”的动态脚本(PHP、Python 等),并让它使用更智能的脚本逻辑智能地生成预期的简单结构。您可以遍历子目录、使用正则表达式等。
您可能需要稍微调整一下您的网络服务器,使其将“robots.txt”作为脚本执行,而不仅仅是提供文件内容。或者,您可以通过 cron 作业运行脚本,该作业每晚重新生成一次 robots.txt(或者经常需要更新)
不幸的是,您不能在 Disallow 行中使用通配符,因此没有通配符。对于要排除的每个目录,您都需要有一个禁止行。
这很不幸,但标准非常简单,这就是需要做的事情。另请注意,您的禁止行中必须有尾随 /。这是使用 robots.txt的一个相当不错的参考。
我见过的最好的文档是在robotstxt.org 上。