需要验证 firebaseapp.com 子域

Question

this name would be displayed

Asked: 2019-09-26 21:26:16 +0800 CST2019-09-26 21:26:16 +0800 CST 2019-09-26 21:26:16 +0800 CST

为什么谷歌不在维基百科历史部分搜索？

我刚注册，有一些愚蠢的问题。
为什么谷歌不显示来自维基百科“查看历史”页面的信息？
例如，在这个历史页面上，如果我用谷歌搜索任何文本，我都不会得到结果。
谢谢。

user1686 · Answer 1 · 2019-09-26T21:47:20+08:00

网站引擎特别要求不要将这些页面编入索引。历史页面有一个被搜索引擎识别的标题标签：

<meta name="robots" content="noindex,nofollow"/>

（noindex不包括页面的直接内容，nofollow还告诉搜索爬虫忽略来自该页面的任何进一步链接。后一个属性也可以附加到单个 <a> 链接。）

一个可能的原因是搜索引擎可能无法轻松区分“当前”和“历史”页面，因此结果可能会被您无法删除的过时数据淹没。

另一个原因是 MediaWiki 以 delta 压缩格式存储历史记录，并且历史记录项越旧，解压缩它所需的 CPU 就越多。（AFAIK 有定期的“完整”检查点，因此它不会螺旋到无穷大，但它仍然是非零资源使用。）将其乘以每个 wiki 页面可能有数百或数千个修订，爬虫可能快速超载服务器。

最后，除了历史部分，维基百科还使用该/robots.txt文件将某些 URL 排除在索引之外。例如，它的 robots.txt 文件排除了所有“投票删除”线程、“用户名更改请求”页面等。