怎么看才能看得出百度谷歌的蜘蛛来爬过我的网站呢?
12.15 13:11:25发布
我就是我
可以通过网站日志分析,筛选访问者的UA,找出百度谷歌的蜘蛛访问记录。
IIS日志的用途就是能够观察搜索引擎的蜘蛛来我们网站的爬取情况,可以更近距离的分析和接触蜘蛛。爬取次数,爬取时间点,爬取高峰期,爬取反应出来的HTTP状态码,为我们带来清晰的分析便利。
一、各大搜索引擎的蜘蛛名称:
百度(Baidu)爬虫名称(Baiduspider)
谷歌(Google)爬虫名称(Googlebot)
雅虎(Yahoo)爬虫名称(Yahoo Slurp)
有道(Yodao)蜘蛛名称(YodaoBot)
搜狗(sogou)蜘蛛名称(sogou spider)
MSN的蜘蛛名称:msnbot
二、IIS分析:案例日志:61.135.168.22 – – [11/Jan/2009:04:02:45 +0800] “GET /thread-7303-1-1.html HTTP/1.1” 200 8450 “-” “Baiduspider(+http://www.baidu.com/search/spider.htm)”
分析:
1、61.135.168.22 是访问了是服务器IP为这个的网站.
2、11/Jan/2009:04:02:45 表示蜘蛛爬行时间
3、GET /thread-7303-1-1.html HTTP,表示蜘蛛抓取了这个页面。
4、200 状态码表示蜘蛛抓取页面成功;404表示蜘蛛抓取页面失败。
5、8450 表示此次抓取了8450个字节
6、Baiduspider(+http://www.baidu.com/search/spider.htm)表示百度蜘蛛的名称
三、基本状态码:
200:请求已经完成,蜘蛛访问页面正常
301:已经移动,永久重定向
302:临时重定向
304:蜘蛛爬取后发现,页面没有修改
305:使用代理
400:请求错误
404:找不到页面
最多设置5个标签!
可以通过网站日志分析,筛选访问者的UA,找出百度谷歌的蜘蛛访问记录。
IIS日志的用途就是能够观察搜索引擎的蜘蛛来我们网站的爬取情况,可以更近距离的分析和接触蜘蛛。爬取次数,爬取时间点,爬取高峰期,爬取反应出来的HTTP状态码,为我们带来清晰的分析便利。
一、各大搜索引擎的蜘蛛名称:
百度(Baidu)爬虫名称(Baiduspider)
谷歌(Google)爬虫名称(Googlebot)
雅虎(Yahoo)爬虫名称(Yahoo Slurp)
有道(Yodao)蜘蛛名称(YodaoBot)
搜狗(sogou)蜘蛛名称(sogou spider)
MSN的蜘蛛名称:msnbot
二、IIS分析:
案例日志:61.135.168.22 – – [11/Jan/2009:04:02:45 +0800] “GET /thread-7303-1-1.html HTTP/1.1” 200 8450 “-” “Baiduspider(+http://www.baidu.com/search/spider.htm)”
分析:
1、61.135.168.22 是访问了是服务器IP为这个的网站.
2、11/Jan/2009:04:02:45 表示蜘蛛爬行时间
3、GET /thread-7303-1-1.html HTTP,表示蜘蛛抓取了这个页面。
4、200 状态码表示蜘蛛抓取页面成功;404表示蜘蛛抓取页面失败。
5、8450 表示此次抓取了8450个字节
6、Baiduspider(+http://www.baidu.com/search/spider.htm)表示百度蜘蛛的名称
三、基本状态码:
200:请求已经完成,蜘蛛访问页面正常
301:已经移动,永久重定向
302:临时重定向
304:蜘蛛爬取后发现,页面没有修改
305:使用代理
400:请求错误
404:找不到页面
一周热门 更多>