关于【robots.txt】的问题- 第1页

w3bariak

Asked: 2016-03-26 07:27:00 +0800 CST

Robots.txt - 禁止抓取子域上的一个目录

-1

我已将我的产品展示放在子域上，例如http://demo.domain.com/productname/. 产品的演示版位于http://demo.domain.com/productname/demo/。我想禁止抓取演示版，有人可以帮助我吗？

MB34

Asked: 2014-05-07 07:42:15 +0800 CST

为什么我的 robots.txt 不起作用？

1

我有这个 robots.txt：

User-Agent: *
Disallow: /files/

User-Agent: ia_archiver
Allow: /

User-agent: Googlebot 
Disallow: 

User-agent: googlebot-image 
Disallow: 

User-agent: googlebot-mobile 
Disallow:

我发现 /files/ 目录中的 PDF 文件正在被 Google 索引。

我应该将第一个条目移到底部吗？

在使用 Google 的网站管理员工具时。我将 /files/ disallow 移到了底部，并对 files 目录中的一个 PDF 文件进行了测试，它返回了 Success。

我该如何解决这个问题？我们不希望此目录中的任何内容被索引。

已编辑

即使我删除了除第一个子句之外的所有内容，

User-Agent: *
Disallow: /files/

Google 仍然可以在 /files/ 目录中看到 PDF，我在这里做错了什么？

在 Bing 的网站管理员工具中，它显示为被阻止，但 Google 仍然显示成功。

NimChimpsky

Asked: 2012-06-14 07:24:00 +0800 CST

webcrawler 机器人对我的网站进行负载测试，但未通过测试

0

我们经营一个商业网站，每次只有很少的客户~30 个用户。

诸如 google bot、bing bot 和 80legs 之类的网络爬虫通常会使我们的网站瘫痪。更改 robots.txt 不会立即生效。反正他们是立即停止 80legs 吗？它正在使用不同的 ip。

Mike F

Asked: 2010-02-20 11:21:03 +0800 CST

Robots.txt 命令

1

我在 www.example.com/A/B/C/NAME 有一堆文件（A，B，C 变化，NAME 是静态的），我基本上想在 robots.txt 中添加一个命令，这样爬虫就不会跟随任何以 NAME 结尾的此类链接。

在 robots.txt 中为此使用的最佳命令是什么？

Joannes Vermorel

Asked: 2010-01-19 09:12:16 +0800 CST

在使用 robots.txt 禁用抓取工具的同时让 Google Apps 网站可公开访问？

0

我想创建一个可公开访问的 Google Apps 站点（即用户无需经过身份验证即可访问内容），同时使用 Robots.txt 维护策略爬虫和机器人排除。有谁知道这是怎么做到的吗？

Parag

Asked: 2010-01-08 12:14:46 +0800 CST

如何防止搜索引擎将特定网址编入索引

0

我有一个不想编入索引的网址：

http://www.mysite.com/moduleA?param=secretkey

所以当我用谷歌搜索“mysite.com”时，我不希望上面的链接出现在搜索结果中。

但是，以下网址是公开查看的一部分：

www.mysite.com/moduleA
www.mysite.com/moduleA?id=12345
www.mysite.com/moduleA/somepage.html

这可以做到吗？robots文件可以用于此吗？

schooner2000

Asked: 2009-09-01 06:54:33 +0800 CST

robots.txt 和其他 .txt 在 IIS 上返回 404？

2

我们有一个运行 Dotnetnuke 的 IIS 站点，该站点是我们从另一个组接管的。我们向根目录添加了一个 robots.txt 文件，但它返回 404。实际上根目录中的任何 txt 文件似乎都返回 404。

我似乎无法发现他们可能在哪里阻止了这一点。有什么建议么？

编辑：我们在干净的 IIS 服务器上有一个站点文件和数据库设置的副本，它在那里工作正常，所以它似乎在 IIS 级别或 web.config 或类似之外的其他东西。

EDIT2：原来这是开发人员一直在使用的模块中的一个错误，导致 txt 文件的重定向被搞砸了。感谢所有回复的人。

Ian

Asked: 2009-08-21 08:32:39 +0800 CST

Robots.txt - 没有关注，没有索引

3

请有人向我解释在 robots.txt 文件中设置允许和禁止与创建无关注、无索引元标记之间的区别！是否可以在 robots.txt 文件中设置无关注和无索引？我看过http://www.robotstxt.org/robotstxt.html并没有真正得到我想要的东西！谢谢

Robots.txt - 禁止抓取子域上的一个目录

为什么我的 robots.txt 不起作用？

webcrawler 机器人对我的网站进行负载测试，但未通过测试

Robots.txt 命令

在使用 robots.txt 禁用抓取工具的同时让 Google Apps 网站可公开访问？

如何防止搜索引擎将特定网址编入索引

robots.txt 和其他 .txt 在 IIS 上返回 404？

Robots.txt - 没有关注，没有索引

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

问题[robots.txt](server)