你好,
通常,如果我在地址栏中键入“oneofmysites.com/robots.txt”,任何浏览器都会显示 robots.txt 的内容。如您所见,这是非常标准的行为。
我只有一个没有的网络服务器。相反,robots.txt 会重定向到默认网页(即“thesiteinquestion.com/”)。这个显着的差异(只有七个站点之一)让我担心。
问题:这需要担心吗?如果是这样,我错过的可能错误是什么?
笔记:
- 这个网站是我使用的唯一一个拥有独立服务提供商的网站。
- CentOS 6.10 版(最终版)
- 网民
- robots.txt 文件权限为 644
这取决于服务器配置,可能不允许 .txt 文件。配置中的某处或某些 .htaccess 中可能有一条规则指定 url 是否与某个模式(例如 .html、.php、.htm 等)不匹配,然后将其余部分重定向到索引页面Web 根目录。
补充一点信息,Web 提供商根本不会被迫遵守 robots.txt 标准,因此可以用它制作任何他想要的东西,就像 Serge 所说的那样,它可以被重定向到任何地方。
爬虫应该阅读
robots.txt
并遵守它的限制,但网络服务器不能强制执行。.htaccess
(或服务器 confía 文件)可用于阻止不遵守规定的爬虫,如果您知道它们是谁。