this name would be displayed Asked: 2019-09-26 21:26:16 +0800 CST2019-09-26 21:26:16 +0800 CST 2019-09-26 21:26:16 +0800 CST 为什么谷歌不在维基百科历史部分搜索? 772 我刚注册,有一些愚蠢的问题。 为什么谷歌不显示来自维基百科“查看历史”页面的信息? 例如,在这个历史页面上,如果我用谷歌搜索任何文本,我都不会得到结果。 谢谢。 google-search 1 个回答 Voted Best Answer user1686 2019-09-26T21:47:20+08:002019-09-26T21:47:20+08:00 网站引擎特别要求不要将这些页面编入索引。历史页面有一个被搜索引擎识别的标题标签: <meta name="robots" content="noindex,nofollow"/> (noindex不包括页面的直接内容,nofollow还告诉搜索爬虫忽略来自该页面的任何进一步链接。后一个属性也可以附加到单个 <a> 链接。) 一个可能的原因是搜索引擎可能无法轻松区分“当前”和“历史”页面,因此结果可能会被您无法删除的过时数据淹没。 另一个原因是 MediaWiki 以 delta 压缩格式存储历史记录,并且历史记录项越旧,解压缩它所需的 CPU 就越多。(AFAIK 有定期的“完整”检查点,因此它不会螺旋到无穷大,但它仍然是非零资源使用。)将其乘以每个 wiki 页面可能有数百或数千个修订,爬虫可能快速超载服务器。 最后,除了历史部分,维基百科还使用该/robots.txt文件将某些 URL 排除在索引之外。例如,它的 robots.txt 文件排除了所有“投票删除”线程、“用户名更改请求”页面等。
网站引擎特别要求不要将这些页面编入索引。历史页面有一个被搜索引擎识别的标题标签:
(
noindex
不包括页面的直接内容,nofollow
还告诉搜索爬虫忽略来自该页面的任何进一步链接。后一个属性也可以附加到单个 <a> 链接。)一个可能的原因是搜索引擎可能无法轻松区分“当前”和“历史”页面,因此结果可能会被您无法删除的过时数据淹没。
另一个原因是 MediaWiki 以 delta 压缩格式存储历史记录,并且历史记录项越旧,解压缩它所需的 CPU 就越多。(AFAIK 有定期的“完整”检查点,因此它不会螺旋到无穷大,但它仍然是非零资源使用。)将其乘以每个 wiki 页面可能有数百或数千个修订,爬虫可能快速超载服务器。
最后,除了历史部分,维基百科还使用该
/robots.txt
文件将某些 URL 排除在索引之外。例如,它的 robots.txt 文件排除了所有“投票删除”线程、“用户名更改请求”页面等。