谷歌的索引机器人(编辑:是的,它是谷歌,IP 解析)似乎正在向我们的主页添加任意查询字符串。
xx.xxx.xx.xxx - - [30/Jun/2009:10:14:37 -0400] "GET /?key=61680 HTTP/1.1" 200 3334 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
xx.xxx.xx.xxx - - [30/Jun/2009:10:16:58 -0400] "GET /?term=byron HTTP/1.1" 200 3184 "-" "DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"
知道这些是什么意思吗?
看起来 Googlebot 可能会轻轻地探测您的网站以寻找可能的内容重复问题。或者查看您的站点是否正确处理不存在的文件(通过返回 404 响应标头)和/或虚假查询字符串。
如果虚假查询请求提供某种不同的结果,它也可能正在测试您是否可能是某种链接农场。
也有可能有人使用这些查询字符串参数链接到您的网站,而 Googlebot 只是回到您身边以查看它的全部内容。如果是这种情况,请尝试找出谁以这种方式链接到您,看看您是否无法让他们更正他们的链接。
它们是否与其他 Googlebot 条目一起被发现?如果不是,则可能是 Googlebot 正在检查从另一个网站到您的网站的链接,以验证与他们的算法的连接。这意味着另一个网站通过这些 URL 链接到您的网站。我不知道垃圾邮件或链接域是否可以对这些 URL 执行某些操作。
因为我不一定了解 Googlebot 所做的一切,所以我当然可能是错的。
在过去的几天里,Googlebot 一直在对我们的一个网站做同样的事情。它似乎插入了一个与我们使用的键匹配的查询字符串值,但需要一个整数,其中 Googlebot 提供了一个字符串。(例如,参数应该类似于 gb=22 但 Googlebot 正在寻找 gb=lkcvvzxxz)
更糟糕的是,Googlebot 正在将这些不良 URL 编入 Google 索引。
我很想看到这个问题得到解答。我知道这应该是一个评论,但还没有在服务器故障上这样做的要点......