如何使用元robots标签
02.27 21:45:50发布
曼安
该文件位于域名的根级目录(如http://www.yourdomain.com/robots.txt),而且是一个万能的工具,能决定搜索爬虫访问哪些网站内容,你可以使用robots.txt:
·阻止爬虫访问网站非公开的部分;
·阻止搜索引擎访问索引脚本、实用程序或其他类型的代码;
·避免网站重复内容的索引,如HTML页面的打印版本或产品目录的多种分类次序;
·自动查找XML站点地图。
robots.txt文件必须保存在根目录下,而且文件名必须全部是小写(robots.txt,而不是robots.txt或其他包含大写字母的形式),若使用其他的名称或存储在其他位置,则将被搜索引擎视为无效,该文件必须全部是文本格式(而不是HTML格式)。
当你告诉搜索引擎机器人不要访问某个页面时,该文件会阻止爬虫爬行这一页面,图6-35生动地诠释了当搜索引擎在robots.txt看到不能爬行某一网页的指令时,会出现什么情况。
实际上,该页面将不会被爬行,因此该页面中的链接无法向其他页面传递链接权限,因为搜索引擎未看见链接。不过,该页面还是会出现在搜索引擎索引中的,当网络中有其他页面链接到该页面时,便会出现这种情况。当然,搜索引擎由于无法阅读该页面,因此不会从中获取较多信息,而是会借助锚文本和其他的页面链接信号来确定页面的内容,所以当你在谷歌索引中看到这一页面时,其搜索列表也是非常贫乏的
显示的是谷歌搜索请求site:www.nytimes.com/cnet/的搜索结果,这并不是用户会输入的正规查询,但你能看到这些结果,只列出了网址而没有描述,这是因为爬虫无法阅读该页面来获取这一数据。在目前的算法中,这类页面不会获得较高的排名,因为它们在正规搜索请求中的相关性得分会非常低。
谷歌、Bing和网络中几乎所有的合法爬虫都会遵循你在robots.txt文件中给出的指示,尽管robots.txt文件中的指令有许多其他的作用,但其主要作用是阻止爬虫访问网站中的页面和子文件夹。需要注意的是,子域名需要有自己的robots.txt文件,保留在https:服务器中的文件也需如此。
robots.txt文件的句法。robots.txt文件的基本句法非常简单:指定一个机器人名称,如“googlebot”,然后设定一个动作。机器人是由用户代理人指定的,而具体的动作会在下面的代码行中规定。你可以指定的主要动作是Disallow:,通过该指令指出你不希望搜索爬虫访问哪些页面(你可以根据自己的需要使用多个disallow代码行)。
可用的其他一些限定如下:
·每个User-agent/Disallow分组都应使用一个空行隔开,但组内不能使用空行(在User-agent代码行和最后一个Disallow之间);
·在robots.txt文件中使用井字符号(#)注释,#之后的所有内容都会被忽略,它可以用于整行或每行的结尾;
·目录和文件名要区分大小写:对于搜索引擎来说,private、Private和PRIVATE都是不同的指令。
最多设置5个标签!
该文件位于域名的根级目录(如http://www.yourdomain.com/robots.txt),而且是一个万能的工具,能决定搜索爬虫访问哪些网站内容,你可以使用robots.txt:
·阻止爬虫访问网站非公开的部分;
·阻止搜索引擎访问索引脚本、实用程序或其他类型的代码;
·避免网站重复内容的索引,如HTML页面的打印版本或产品目录的多种分类次序;
·自动查找XML站点地图。
robots.txt文件必须保存在根目录下,而且文件名必须全部是小写(robots.txt,而不是robots.txt或其他包含大写字母的形式),若使用其他的名称或存储在其他位置,则将被搜索引擎视为无效,该文件必须全部是文本格式(而不是HTML格式)。
当你告诉搜索引擎机器人不要访问某个页面时,该文件会阻止爬虫爬行这一页面,图6-35生动地诠释了当搜索引擎在robots.txt看到不能爬行某一网页的指令时,会出现什么情况。
实际上,该页面将不会被爬行,因此该页面中的链接无法向其他页面传递链接权限,因为搜索引擎未看见链接。不过,该页面还是会出现在搜索引擎索引中的,当网络中有其他页面链接到该页面时,便会出现这种情况。当然,搜索引擎由于无法阅读该页面,因此不会从中获取较多信息,而是会借助锚文本和其他的页面链接信号来确定页面的内容,所以当你在谷歌索引中看到这一页面时,其搜索列表也是非常贫乏的
显示的是谷歌搜索请求site:www.nytimes.com/cnet/的搜索结果,这并不是用户会输入的正规查询,但你能看到这些结果,只列出了网址而没有描述,这是因为爬虫无法阅读该页面来获取这一数据。在目前的算法中,这类页面不会获得较高的排名,因为它们在正规搜索请求中的相关性得分会非常低。
谷歌、Bing和网络中几乎所有的合法爬虫都会遵循你在robots.txt文件中给出的指示,尽管robots.txt文件中的指令有许多其他的作用,但其主要作用是阻止爬虫访问网站中的页面和子文件夹。需要注意的是,子域名需要有自己的robots.txt文件,保留在https:服务器中的文件也需如此。
robots.txt文件的句法。robots.txt文件的基本句法非常简单:指定一个机器人名称,如“googlebot”,然后设定一个动作。机器人是由用户代理人指定的,而具体的动作会在下面的代码行中规定。你可以指定的主要动作是Disallow:,通过该指令指出你不希望搜索爬虫访问哪些页面(你可以根据自己的需要使用多个disallow代码行)。
可用的其他一些限定如下:
·每个User-agent/Disallow分组都应使用一个空行隔开,但组内不能使用空行(在User-agent代码行和最后一个Disallow之间);
·在robots.txt文件中使用井字符号(#)注释,#之后的所有内容都会被忽略,它可以用于整行或每行的结尾;
·目录和文件名要区分大小写:对于搜索引擎来说,private、Private和PRIVATE都是不同的指令。
一周热门 更多>