我很困惑地在 Google 网站中找到两个不同的站点地图:
http://sites.google.com/site/(name of the site)/system/feeds/sitemap
http://sites.google.com/site/(name of the site)/system/app/pages/sitemap/hierarchy
现在,我准备问一个令人困惑的问题“站点地图是什么?” 我一直认为它们是允许爬虫查看网站上的内容的东西,正如前面的例子所证实的那样。后一个例子挑战了我的知识。它们实际上是什么?前者只适用于人类而后者适用于爬虫吗?还有更多不同类型的站点地图吗?
术语站点地图可以有两个稍微不同的含义:
A) 人类站点地图
一个网页,让您的用户了解您的网站。这就是你的例子
http://sites.google.com/site/(网站名称)/system/app/pages/sitemap/hierarchy
是。只需将其粘贴到浏览器的 URL 栏中,然后查看自己。
B)机器的站点地图
这种站点地图是构成网站的 URL 的机器可读(xml 的 txt)列表。这是一种允许爬虫查看网站内容的站点地图。
您甚至可以拥有多个此类站点地图。原因与我们通常不会将所有源代码放在一个文件中的原因相同。如果您将站点地图拆分为多个文件,则更易于管理。
在你的例子中
“提要”表示这是一个站点地图,其中仅包含 RSS 提要的 URL。
要了解它包含的内容,您必须仔细查看它。一种方法是像这样下载文件
并在您喜欢的文本编辑器中打开它。
在我的谷歌网站上,这个文件看起来像这样:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
</urlset>
它几乎是空的。原因可能是我刚刚创建了站点并且不存在提要条目。
站点地图可以是 a) 面向人类受众的站点结构的可视化表示 b) 文件,供网络爬虫(谷歌、雅虎)使用,这些爬虫会告知他们哪些 url 可用于爬取。它通常与 robots.txt 文件一起提供,该文件通知爬虫哪些 url 可以被索引,哪些不能。站点地图最常见的格式是 XML,它允许指定 URL 的重要性和更改频率。您可以在http://www.sitemaps.org/protocol.php中阅读规范. 不常见但可能的站点地图格式只是纯文本文件,它用换行符分隔 URL。它不如 XML 格式灵活,因此 XML 格式更适合 SEO 工作。您可以拥有多个 XML 站点地图并将它们链接到站点地图索引中。它经常被大型站点使用,因为站点地图协议将站点地图大小限制为 10 MB。此外,您可以使用 RSS 或 ATOM 提要通知爬虫有关 url 的信息。这种方法的缺点是您只能通知最新的 URL。