Temos um host de servidor com WHM.
Este host é um host virtual com vários sites.
Descobrimos recentemente que o Google Analytics e o Search Console parecem não conseguir acessar as páginas do site porque o Google parece não conseguir acessar o arquivo robots.txt.
O arquivo robots.txt existe e pode ser acessado pelo navegador.
Minha conclusão é que de alguma forma o firewall WHM ou similar está bloqueando o acesso do Google a www.website.com/robots.txt . Mas não consigo ver como isso está acontecendo. O Google não fornece informações específicas úteis. Apenas que a solicitação é atendida por um erro (5xx). Mas a solicitação carrega perfeitamente no navegador.
Limpei nossa extensa lista de IPs bloqueados no Firewall (CSF) e verifiquei se as opções de firewall de inundação de portas estão desativadas (estão desativadas). Também verifiquei o Apache para ver se há algo nele que possa causar problemas no host virtual que o httpd.conf inclui e nada parece relevante.
Não tenho certeza do que estou procurando, mas algo que está fazendo com que o Google (especificamente e somente) seja negado pelo servidor.
o que estou perdendo? Onde posso procurar? Estou sem ideias. Acho que há algo automatizado que impede os bots do Google de chegar ao servidor , mas não consigo entender o que é. Talvez algum tipo de regra negando acesso a arquivos não HTML, embora funcionem no navegador.
Embora não tenha conseguido encontrar informações exatas que me dissessem qual era a causa, por meio de um processo de dedução encontrei o problema:
Os Googlebots não conseguem operar com determinados tipos de cabeçalhos HTTP "Política de permissões" em vigor. Especificamente
Todos devem estar padrão/ativados (
*
) no cabeçalho HTTP fornecido aos bots do Google.(Não tenho certeza se a geolocalização é necessária para que funcione, mas os outros definitivamente)