我们有一个带有 WHM 的服务器主机。
该主机是一个拥有大量网站的虚拟主机。
我们最近发现 Google Analytics 和 Search Console 似乎无法访问网站页面,因为 Google 似乎无法访问 robots.txt 文件。
robots.txt 文件存在,并且可以通过浏览器访问。
我的结论是,WHM 防火墙或类似程序以某种方式阻止了 Google 访问www.website.com/robots.txt。但我不明白这是怎么发生的。Google 没有提供任何有用的具体信息。只是请求遇到了 (5xx) 错误。但请求在浏览器中加载正常。
我已清除防火墙 (CSF) 上大量被阻止的 IP 列表,并检查端口泛洪防火墙选项是否已关闭(它们已关闭)。我还检查了 Apache,看是否有任何内容可能导致虚拟主机 httpd.conf 包含的问题,但似乎没有任何相关内容。
我不确定我在寻找什么,但某些东西导致 Google(具体且唯一)被服务器拒绝。
我遗漏了什么?我可以在哪里查看?我没主意了。我认为有某种自动程序阻止 Google 机器人访问服务器,但我搞不清楚它是什么。也许是某种规则拒绝访问非 HTML 文件,尽管它们在浏览器中可以工作。
虽然我无法找到确切的信息来告诉我原因是什么,但通过推理,我发现了问题:
如果存在某些类型的“权限策略”HTTP 标头,Googlebot 将无法运行。具体来说
*
在提供给 Google 机器人的 HTTP 标头上,应该全部为默认/启用( )。(我不确定是否需要地理定位才能使其工作,但其他的肯定需要)