什么是返回码
新手同学较多,先科普一下。返回码又叫http状态码。当我们用浏览器访问网址的时候,其实服务器会返回一窜数字给浏览器(当然人是看不到的,但可以用工具查询的到状态码)。
返回的数据通常为3个数字。这三个数据我们叫http状态码,也叫返回码!
http状态码查询工具:http://tool.chinaz.com/pagestatus/
如图
状态码与搜索引擎
当爬虫爬取网页的时候,爬虫也会参考http状态码的。http状态码的运用对SEO排名也极为重要。虽然简单,但影响较大。下面我们会一起学习几个较为重要的http状态码。
404状态码
404的含义是,网页不存在,也就是我们前面讲的死链接。当爬虫抓取该404链接后,短时间内,下次再遇到该链接,搜索引擎将不会再爬取。如该链接已经建立索引,搜索引擎将清除数据库里面的索引数据。
503状态码
503状态码是指,服务器临时故障。通常在网站短暂改版、网站访问压力过大、服务器临时维护等使用。
当爬虫抓取503的链接后,爬虫会认为该链接暂时不能访问,短时间后还会接着回访链接,并不会从索引中删除该链接。如果短时间访问的几次中,都没有恢复正常访问,搜索引擎会认为该链接已经失效,会删除该链接。
403状态码
403是指无权限访问。当网址返回403后,搜索引擎的做法,和上面所讲的503有点相识。搜索引擎任然在短期间还会抓取该网址。但是,如果短时间多次无法抓取网页,搜索引擎任然会删除该网址。
301状态码
301是指网页永久转移。搜索引擎会认为网页已经转移,也就是更换了新网址。所以301用法较为常见。
当网站换网址、链接的时候,可以采用301状态码。避免用户的流失,同时也是搜索引擎推荐的一种方式(ps:配合百度站长平台的改版工具,能将网站权重转移哦!)。
总结:关于SEO的建议
1、当网站需要短时间关闭的时候,建议不要反悔404,而是放回503状态码,这可以避免搜索引擎的处罚。
2、当网站被用户访问过大而难以打开的时候,爬虫爬取压力过大的时候,同样采用503。后期有利百度继续抓取网站。
3、有些特殊的情况,比如一些短时间不能让搜索引擎抓取的内容,可以启用403,而非404。
4、网站改版(更换域名)的时候,采用301状态码,有利于网站权重转移(需要配合百度站长平台-改版工具进行使用)。