我已将我的产品展示放在子域上,例如http://demo.domain.com/productname/
. 产品的演示版位于http://demo.domain.com/productname/demo/
。我想禁止抓取演示版,有人可以帮助我吗?
我有这个 robots.txt:
User-Agent: *
Disallow: /files/
User-Agent: ia_archiver
Allow: /
User-agent: Googlebot
Disallow:
User-agent: googlebot-image
Disallow:
User-agent: googlebot-mobile
Disallow:
我发现 /files/ 目录中的 PDF 文件正在被 Google 索引。
我应该将第一个条目移到底部吗?
在使用 Google 的网站管理员工具时。我将 /files/ disallow 移到了底部,并对 files 目录中的一个 PDF 文件进行了测试,它返回了 Success。
我该如何解决这个问题?我们不希望此目录中的任何内容被索引。
已编辑
即使我删除了除第一个子句之外的所有内容,
User-Agent: *
Disallow: /files/
Google 仍然可以在 /files/ 目录中看到 PDF,我在这里做错了什么?
在 Bing 的网站管理员工具中,它显示为被阻止,但 Google 仍然显示成功。
我们经营一个商业网站,每次只有很少的客户~30 个用户。
诸如 google bot、bing bot 和 80legs 之类的网络爬虫通常会使我们的网站瘫痪。更改 robots.txt 不会立即生效。反正他们是立即停止 80legs 吗?它正在使用不同的 ip。
我在 www.example.com/A/B/C/NAME 有一堆文件(A,B,C 变化,NAME 是静态的),我基本上想在 robots.txt 中添加一个命令,这样爬虫就不会跟随任何以 NAME 结尾的此类链接。
在 robots.txt 中为此使用的最佳命令是什么?
我想创建一个可公开访问的 Google Apps 站点(即用户无需经过身份验证即可访问内容),同时使用 Robots.txt 维护策略爬虫和机器人排除。有谁知道这是怎么做到的吗?
我有一个不想编入索引的网址:
http://www.mysite.com/moduleA?param=secretkey
所以当我用谷歌搜索“mysite.com”时,我不希望上面的链接出现在搜索结果中。
但是,以下网址是公开查看的一部分:
www.mysite.com/moduleA
www.mysite.com/moduleA?id=12345
www.mysite.com/moduleA/somepage.html
这可以做到吗?robots文件可以用于此吗?
我们有一个运行 Dotnetnuke 的 IIS 站点,该站点是我们从另一个组接管的。我们向根目录添加了一个 robots.txt 文件,但它返回 404。实际上根目录中的任何 txt 文件似乎都返回 404。
我似乎无法发现他们可能在哪里阻止了这一点。有什么建议么?
编辑:我们在干净的 IIS 服务器上有一个站点文件和数据库设置的副本,它在那里工作正常,所以它似乎在 IIS 级别或 web.config 或类似之外的其他东西。
EDIT2:原来这是开发人员一直在使用的模块中的一个错误,导致 txt 文件的重定向被搞砸了。感谢所有回复的人。
请有人向我解释在 robots.txt 文件中设置允许和禁止与创建无关注、无索引元标记之间的区别!是否可以在 robots.txt 文件中设置无关注和无索引?我看过http://www.robotstxt.org/robotstxt.html并没有真正得到我想要的东西!谢谢