robots协议是什么-燃灯SEO搜索学院

3条回答

1楼 · 12.04 20:52:45.采纳回答

Robots是网站和搜引擎之间的一个协议，百度会优先去看我们根目录下的这个协议，会按照的这个协议有顺序的去抓取我们网站的链接，但是这个也不是万能的，只能保证不收录，，不展示，不传递权重，百度并不会不抓取，Robots 的作用已经不在局限于网页的隐私了，会员中心，vip权限，已经是我们SEO人员必须掌握的一项操作手法。

TAG标签：

1人赞添加讨论(1) 举报

哈哈哇10：非常感谢!
12.04 20:53:12|回复

闻子

2楼-- · 12.13 14:30:12

Robots协议是一种用来指导网络爬虫（Web Crawler）如何访问和抓取网站内容的协议。它告诉搜索引擎爬虫和其他网络爬虫程序，哪些页面可以被抓取，哪些页面应该被忽略。

Robots协议通常是一个名为"robots.txt"的文本文件，位于网站的根目录下。该文件使用简单的语法规则来定义爬虫的访问权限。

在robots.txt文件中，网站管理员可以指定以下内容：

1. User-agent：指定要控制的爬虫名称。例如，"*"表示所有爬虫，"Googlebot"表示仅适用于Google爬虫。

2. Disallow：指定不允许爬虫访问的页面或目录。例如，"Disallow: /private/"表示禁止访问名为"private"的目录。

3. Allow：指定允许爬虫访问的特定页面或目录，即使之前已经通过Disallow禁止了该爬虫的访问。

通过编辑robots.txt文件，网站管理员可以限制搜索引擎爬虫访问敏感页面、避免重复抓取无关页面、保护隐私信息等。

需要注意的是，Robots协议是基于约定的协议，并非强制性规则。大多数诚实的搜索引擎爬虫程序会遵守robots.txt文件中的指示，但也不能保证所有爬虫都会遵守。因此，Robots协议不能用于安全目的，例如阻止非授权用户访问敏感信息。

0人赞添加讨论(0) 举报

暂无评论 :)

沐颜

3楼-- · 12.22 13:11:29

Robots协议（也称为robots.txt协议）是一种用于指导搜索引擎蜘蛛（爬虫）如何访问和抓取网站内容的约定协议。它是网站管理员用来控制搜索引擎蜘蛛行为的一种方式。

Robots协议通常存储在网站的根目录下的robots.txt文件中。该文件包含一系列规则，告诉搜索引擎蜘蛛哪些页面可以访问，哪些页面不可以访问。

以下是一些常见的Robots协议指令：

1. User-agent：指定适用于下面规则的搜索引擎蜘蛛或爬虫的名称。例如，`User-agent: Googlebot` 表示下面的规则适用于Googlebot。

2. Disallow：指定某个搜索引擎蜘蛛不允许访问的路径或文件。例如，`Disallow: /private/` 表示搜索引擎蜘蛛不得访问 `/private/` 目录下的任何内容。

3. Allow：指定某个搜索引擎蜘蛛允许访问的特定路径或文件。例如，`Allow: /public/` 表示搜索引擎蜘蛛可以访问 `/public/` 目录下的内容。

4. Sitemap：指定网站地图（sitemap）的URL，以提供给搜索引擎蜘蛛查找和索引网站内容的指导。

Robots协议的目的是帮助网站管理员控制搜索引擎蜘蛛的行为，以优化网站的索引和排名。然而，它只是一种指导性协议，并不能保证搜索引擎蜘蛛完全遵守这些规则。一些恶意的爬虫或机器人可能会忽略Robots协议。

0人赞添加讨论(0) 举报

暂无评论 :)

robots协议是什么

一周热门更多>

相关问答

robots协议是什么

一周热门 更多>

相关问答

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间

一周热门更多>