我有一个 robots.txt 文件,如下所示:
User-agent: *
Disallow: /account/
Disallow: /captcha/
Disallow: /checkout/
User-agent: DataForSeoBot
Disallow: /p-
User-agent: UptimeRobot
Disallow: /p-
我的通配符禁止规则中有几十个文件和文件夹。然后我想另外阻止特定爬虫程序(如 DataForSeoBot)访问以 /p- 开头的 URL。在为 DataForSeo 添加特定规则之前,它在我的通配符规则中看到的是长长的 URL 列表。在我根据他们的机器人名称添加了额外的特定规则后,DataForSeoBot 现在看到的唯一禁止规则是 /p- 规则。他们是否错误地读取了 robots.txt 文件,还是我写错了?我希望我不必为每个我想禁止 /p- 的爬虫程序重复整个第一条规则,因为大约有十几个。我还尝试将特定的按名称规则移到通配符规则之前的顶部,但这没什么区别。
我正在测试使用他们网站上的功能来查看他们如何读取 robots.txt 文件。