robots具体应该禁止些什么文件?
12.05 21:15:35发布
哈哈哇10
robots协议是更为了更好的辅助百度蜘蛛的抓取,节省百度蜘蛛的资源,
所以不要让蜘蛛去爬取一些无价值的页面,保护我们的重要用户账号数据不被抓取展现, 下面举例列出来:
1、模板文件(/template/)可以屏蔽;
2、这个文件/uploads/一般放的是图片,可以屏蔽;
3、/data/系统数据文件,可以屏蔽;
4、/img/或/images/,如果你不是做的图片站,也可以屏蔽;
5、/bin/系统文件可以屏蔽;
6、/install/安装文件可以屏蔽; 7、/member/有会员的可以屏蔽;
8、/logreport/有统计报告的可以屏蔽; 9、/bjk/有加密的文件,可以屏蔽;
10、/js/,/css/可以屏蔽,留着是为了让蜘蛛更好地了解网站结构,资源少的情况下,可以屏蔽。
11、网站地图,sitemap要记得放进去,不要屏蔽,让蜘蛛第一时间去看你的网站地图,更快了解网站链接结构!
总结:记得回头要检查一下我么是否写对了没?因为百度对于用户的数据非常的感兴趣,会优先收录。
在robots.txt文件中,你可以使用Disallow指令来禁止搜索引擎蜘蛛访问特定的文件、目录或URL。以下是一些常见的需要禁止的内容:
1. 敏感信息或私密页面:如果你有一些包含敏感信息或私密内容的页面,希望避免它们被搜索引擎索引,可以使用Disallow指令来禁止搜索引擎访问这些页面。
例如:Disallow: /private-page.html
2. 无效或错误页面:如果你有一些无效的页面或者已经删除的页面,希望搜索引擎不要继续访问这些死链,可以使用Disallow指令来禁止搜索引擎蜘蛛访问这些页面。
例如:Disallow: /old-page.html
3. 管理员页面或目录:如果你有一些用于网站管理或内部操作的页面或目录,希望搜索引擎不要索引或访问这些页面,可以使用Disallow指令来禁止搜索引擎访问这些管理员页面或目录。
例如:Disallow: /admin/
4. 不希望被索引的文件类型:如果你希望搜索引擎不要索引特定类型的文件(如图片、视频等),可以使用Disallow指令来禁止搜索引擎访问这些文件。
例如:Disallow: /*.jpg$
robots.txt文件中的Disallow指令只是给搜索引擎蜘蛛提供一个指示,是否遵守这些指令完全取决于搜索引擎的行为。不同的搜索引擎可能有不同的解析规则,因此设置合适的robots.txt文件需要仔细阅读和理解搜索引擎的规范和文档。
最多设置5个标签!
robots协议是更为了更好的辅助百度蜘蛛的抓取,节省百度蜘蛛的资源,
所以不要让蜘蛛去爬取一些无价值的页面,保护我们的重要用户账号数据不被抓取展现, 下面举例列出来:
1、模板文件(/template/)可以屏蔽;
2、这个文件/uploads/一般放的是图片,可以屏蔽;
3、/data/系统数据文件,可以屏蔽;
4、/img/或/images/,如果你不是做的图片站,也可以屏蔽;
5、/bin/系统文件可以屏蔽;
6、/install/安装文件可以屏蔽; 7、/member/有会员的可以屏蔽;
8、/logreport/有统计报告的可以屏蔽; 9、/bjk/有加密的文件,可以屏蔽;
10、/js/,/css/可以屏蔽,留着是为了让蜘蛛更好地了解网站结构,资源少的情况下,可以屏蔽。
11、网站地图,sitemap要记得放进去,不要屏蔽,让蜘蛛第一时间去看你的网站地图,更快了解网站链接结构!
总结:记得回头要检查一下我么是否写对了没?因为百度对于用户的数据非常的感兴趣,会优先收录。
在robots.txt文件中,你可以使用Disallow指令来禁止搜索引擎蜘蛛访问特定的文件、目录或URL。以下是一些常见的需要禁止的内容:
1. 敏感信息或私密页面:如果你有一些包含敏感信息或私密内容的页面,希望避免它们被搜索引擎索引,可以使用Disallow指令来禁止搜索引擎访问这些页面。
例如:Disallow: /private-page.html
2. 无效或错误页面:如果你有一些无效的页面或者已经删除的页面,希望搜索引擎不要继续访问这些死链,可以使用Disallow指令来禁止搜索引擎蜘蛛访问这些页面。
例如:Disallow: /old-page.html
3. 管理员页面或目录:如果你有一些用于网站管理或内部操作的页面或目录,希望搜索引擎不要索引或访问这些页面,可以使用Disallow指令来禁止搜索引擎访问这些管理员页面或目录。
例如:Disallow: /admin/
4. 不希望被索引的文件类型:如果你希望搜索引擎不要索引特定类型的文件(如图片、视频等),可以使用Disallow指令来禁止搜索引擎访问这些文件。
例如:Disallow: /*.jpg$
robots.txt文件中的Disallow指令只是给搜索引擎蜘蛛提供一个指示,是否遵守这些指令完全取决于搜索引擎的行为。不同的搜索引擎可能有不同的解析规则,因此设置合适的robots.txt文件需要仔细阅读和理解搜索引擎的规范和文档。
一周热门 更多>