如何使用元robots标签-燃灯SEO搜索学院

1条回答

天宇老师

1楼 · 02.27 21:58:05.采纳回答

该文件位于域名的根级目录（如http://www.yourdomain.com/robots.txt），而且是一个万能的工具，能决定搜索爬虫访问哪些网站内容，你可以使用robots.txt：

·阻止爬虫访问网站非公开的部分；

·阻止搜索引擎访问索引脚本、实用程序或其他类型的代码；

·避免网站重复内容的索引，如HTML页面的打印版本或产品目录的多种分类次序；

·自动查找XML站点地图。

robots.txt文件必须保存在根目录下，而且文件名必须全部是小写（robots.txt，而不是robots.txt或其他包含大写字母的形式），若使用其他的名称或存储在其他位置，则将被搜索引擎视为无效，该文件必须全部是文本格式（而不是HTML格式）。

当你告诉搜索引擎机器人不要访问某个页面时，该文件会阻止爬虫爬行这一页面，图6-35生动地诠释了当搜索引擎在robots.txt看到不能爬行某一网页的指令时，会出现什么情况。

实际上，该页面将不会被爬行，因此该页面中的链接无法向其他页面传递链接权限，因为搜索引擎未看见链接。不过，该页面还是会出现在搜索引擎索引中的，当网络中有其他页面链接到该页面时，便会出现这种情况。当然，搜索引擎由于无法阅读该页面，因此不会从中获取较多信息，而是会借助锚文本和其他的页面链接信号来确定页面的内容，所以当你在谷歌索引中看到这一页面时，其搜索列表也是非常贫乏的

显示的是谷歌搜索请求site：www.nytimes.com/cnet/的搜索结果，这并不是用户会输入的正规查询，但你能看到这些结果，只列出了网址而没有描述，这是因为爬虫无法阅读该页面来获取这一数据。在目前的算法中，这类页面不会获得较高的排名，因为它们在正规搜索请求中的相关性得分会非常低。

谷歌、Bing和网络中几乎所有的合法爬虫都会遵循你在robots.txt文件中给出的指示，尽管robots.txt文件中的指令有许多其他的作用，但其主要作用是阻止爬虫访问网站中的页面和子文件夹。需要注意的是，子域名需要有自己的robots.txt文件，保留在https：服务器中的文件也需如此。

robots.txt文件的句法。robots.txt文件的基本句法非常简单：指定一个机器人名称，如“googlebot”，然后设定一个动作。机器人是由用户代理人指定的，而具体的动作会在下面的代码行中规定。你可以指定的主要动作是Disallow：，通过该指令指出你不希望搜索爬虫访问哪些页面（你可以根据自己的需要使用多个disallow代码行）。

可用的其他一些限定如下：

·每个User-agent/Disallow分组都应使用一个空行隔开，但组内不能使用空行（在User-agent代码行和最后一个Disallow之间）；

·在robots.txt文件中使用井字符号（＃）注释，＃之后的所有内容都会被忽略，它可以用于整行或每行的结尾；

·目录和文件名要区分大小写：对于搜索引擎来说，private、Private和PRIVATE都是不同的指令。

TAG标签：

0人赞添加讨论(1) 举报

如何使用元robots标签

一周热门更多>

相关问答

如何使用元robots标签

一周热门 更多>

相关问答

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间

一周热门更多>