robots如何屏蔽某几个蜘蛛抓取
11.05 09:45:00发布
远方
首先要知道不同搜索引擎爬虫的名称,百度爬虫是Baiduspider,Google爬虫是Googlebot,360搜索爬虫是360Spider;1.屏蔽百度或某一爬虫抓取:
User-agent: baiduspiderDisallow: /
Robots规则
1:User-agent:蜘蛛名称——制定要针对那个爬虫进行设置;
2:Allow:允许蜘蛛抓取——默认是允许所有蜘蛛抓取网站所有的链接;
3:Disallow:禁止抓取——禁止抓取目录(文件夹),允许抓取图片;
4:*(通配符):所有不同的可用*代替;
5:$(终止符):以***结尾;
6:Sitemap:网站地图链接地址。
规则细节
1:首个字母大写,英文状态下的冒号;
2:空格——冒号之后;
3:/——每个路径都要包含“/”,代表整个网站,后面为网站相对路径。
robots如何屏蔽某几个蜘蛛抓取表示为:Disallow: /ab
要屏蔽某几个蜘蛛抓取你的网站,可以通过在robots.txt文件中使用User-agent和Disallow指令来实现。下面是具体的步骤:
1. 打开你的网站根目录下的robots.txt文件(如果没有该文件,则创建一个新的文本文件并命名为robots.txt)。
2. 在文件中,使用User-agent指令指定要屏蔽的蜘蛛的名称。例如,要屏蔽Googlebot和Bingbot这两个蜘蛛,可以写入以下内容:
```
User-agent: Googlebot
Disallow: /
User-agent: Bingbot
上述代码将告诉Googlebot和Bingbot不要访问网站的任何页面。
3. 如果你只想屏蔽特定路径下的抓取,而不是整个网站,可以在Disallow指令后指定要屏蔽的路径。例如,要屏蔽Googlebot访问/example路径,可以写入以下内容:
Disallow: /example/
这将告诉Googlebot不要访问/example路径及其下的所有页面。
4. 保存并上传你的robots.txt文件到网站的根目录。
请记住,这只是一种指示,遵守这些指令取决于搜索引擎蜘蛛的行为。不同的搜索引擎可能有不同的蜘蛛名称,因此你需要查看相关搜索引擎的文档以了解要屏蔽的特定蜘蛛的名称。另外,一些恶意蜘蛛可能会忽略robots.txt文件的指令,所以这种方法并不是完全可靠的防护措施。
最多设置5个标签!
首先要知道不同搜索引擎爬虫的名称,百度爬虫是Baiduspider,Google爬虫是Googlebot,360搜索爬虫是360Spider;
1.屏蔽百度或某一爬虫抓取:
User-agent: baiduspider
Disallow: /
Robots规则
1:User-agent:蜘蛛名称——制定要针对那个爬虫进行设置;
2:Allow:允许蜘蛛抓取——默认是允许所有蜘蛛抓取网站所有的链接;
3:Disallow:禁止抓取——禁止抓取目录(文件夹),允许抓取图片;
4:*(通配符):所有不同的可用*代替;
5:$(终止符):以***结尾;
6:Sitemap:网站地图链接地址。
规则细节
1:首个字母大写,英文状态下的冒号;
2:空格——冒号之后;
3:/——每个路径都要包含“/”,代表整个网站,后面为网站相对路径。
robots如何屏蔽某几个蜘蛛抓取表示为:Disallow: /ab
要屏蔽某几个蜘蛛抓取你的网站,可以通过在robots.txt文件中使用User-agent和Disallow指令来实现。下面是具体的步骤:
1. 打开你的网站根目录下的robots.txt文件(如果没有该文件,则创建一个新的文本文件并命名为robots.txt)。
2. 在文件中,使用User-agent指令指定要屏蔽的蜘蛛的名称。例如,要屏蔽Googlebot和Bingbot这两个蜘蛛,可以写入以下内容:
```
User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Disallow: /
```
上述代码将告诉Googlebot和Bingbot不要访问网站的任何页面。
3. 如果你只想屏蔽特定路径下的抓取,而不是整个网站,可以在Disallow指令后指定要屏蔽的路径。例如,要屏蔽Googlebot访问/example路径,可以写入以下内容:
```
User-agent: Googlebot
Disallow: /example/
```
这将告诉Googlebot不要访问/example路径及其下的所有页面。
4. 保存并上传你的robots.txt文件到网站的根目录。
请记住,这只是一种指示,遵守这些指令取决于搜索引擎蜘蛛的行为。不同的搜索引擎可能有不同的蜘蛛名称,因此你需要查看相关搜索引擎的文档以了解要屏蔽的特定蜘蛛的名称。另外,一些恶意蜘蛛可能会忽略robots.txt文件的指令,所以这种方法并不是完全可靠的防护措施。
一周热门 更多>