Acabei de me registrar e tenho uma pergunta estúpida.
Por que o Google não mostra informações das páginas "ver histórico" na wikipedia?
Por exemplo, nesta página de histórico, se eu pesquisar qualquer texto no Google , não obterei resultado.
Obrigado.
O mecanismo do site solicita especificamente que essas páginas não sejam indexadas. A página de histórico possui uma tag de cabeçalho reconhecida pelos mecanismos de pesquisa:
(
noindex
exclui o conteúdo direto da página enofollow
também informa ao rastreador de pesquisa para ignorar quaisquer outros links desta página. O último atributo também pode ser anexado a links <a> individuais.)Uma razão possível é que os mecanismos de pesquisa podem não ser capazes de distinguir páginas "atuais" e "históricas" facilmente, portanto, os resultados podem ser inundados por dados obsoletos que você não conseguiria remover.
Outra razão é que o MediaWiki armazena o histórico em formato delta compactado, e quanto mais antigo for um item de histórico, mais CPU será necessário para descompactá-lo. (AFAIK, existem pontos de verificação "completos" periódicos para que não cheguem ao infinito, mas, no entanto, é um uso de recurso diferente de zero.) Multiplique isso por possivelmente centenas ou milhares de revisões para cada página wiki e o rastreador pode sobrecarregar rapidamente o servidor.
Por fim, além da seção de histórico, a Wikipédia também usa o
/robots.txt
arquivo para excluir determinados URLs da indexação. Por exemplo, seu arquivo robots.txt exclui todos os tópicos "Vote para exclusão", páginas "Solicitação de alteração de nome de usuário" e outros.