搜索引擎如何提供搜索结果
信息索引工作
上节我们知道了搜索引擎出击互联网去收集各个网页,力图带回最大量的信息。但是,这些信息回来之后,是暂时放在一个“仓库”中的。在用户提出搜索问询的时候,并不是这些一手信息反馈给用户,而是加工后的有序网页。不经过这些加工,在服务用户问询的时候无法迅速给予回答。这个整理一手网页、编制索引的过程也是搜索引擎评判网站质量的过程。只有有价值的信息才会送入索引。
举例来说,搜索引擎设立一个索引叫“搜索引擎优化”,它就会在它的仓库里寻找有关“搜索引擎优化”的网页,把它们收录在“搜索引擎优化”这个标签下面,等有用户搜索“搜索引擎优化”的时候,它就在这一堆网页中寻找答案。
根据美国《Google的佩奇等级及其他》一书的作者蓝维尔和迈尔分析,这个索引有三种:第一种是内容索引。这里的内容包括网页的关键词、标题、描述语句、链接源头文字都以一种反向数据结构被压缩。这种结构就好像一本书的索引总是在书的最后部分一样。更多的有价值的信息,如网页链接也被收集,放入结构索引之中,这是第二种索引。最后一种是特别索引,集中图片、PDF文件等供特别搜索问询,比如图片搜索。
搜索引擎的信息反馈工作
当用户在搜索框里面敲入搜索关键词按下搜索键的时候,搜索引擎便紧张地开始工作,争取在最短的时间(几百万分之一秒)提供搜寻结果。Google一般将整个执行时间控制在半秒之内。
要在这么短的时间里提供准确的结果,临时计算是不可能的。因此,搜索引擎在内容索引和结构索引的过程中都有个预备计算。在搜索引擎执行了计算后,出来符合用户问询条件的网页太多。一般过去的搜索引擎就此打住,将信息就反馈给读者了。Google进一步将结构交付给排名程序,请排名程序将相关信息按照从最相关到最不相关进行排列。排名程序于是从预备计算过的索引中排列进行比较,给网页的内容进行打分,将综合的结果提供给用户。
搜索引擎排名原理
Google的佩奇等级(PageRank)
佩奇等级(PageRank)是Google在20世纪90年代后期超越其他搜索引擎的一个重要概念和法宝。“佩奇等级”是Google算法的重要内容。2001年9月Google被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里面的Page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
按照李开复博士在Google黑板报上的说法,“佩奇等级”是一个拥有5亿个变量和2,000万定义的数学平衡式,是Google搜索的核心技术之一。“佩奇等级”着重考察网站的权威性,即越有权威的网站越容易被其他网站主动链接。被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和您的网站挂钩。“佩奇等级”这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性越高。
佩奇的初衷是非常理想化的。他认为,一个网站的好坏不是由网站自己吹出来的,也不是网站自己做假做出来的,而是大家评选出来的。你链接一个网站,那个网站就获得了一个投票。这样的评比结果很难被操纵,网站的排名也就很难由作弊获得。但是,这个逻辑现在一样遭遇了挑战。搜索引擎优化者为了提升一个网站的“佩奇等级”价值,总是在试图获取最多的导入链接,因为一个导入链接就相当于一份投票。更多的网主靠虚假的链接来积累这个“投票”来作弊。因此,Google现在对于搜索的排名并不像以前那样重视“佩奇等级”了。
“佩奇等级”评价一个网页用1~10的数字来显示在Google工具栏中,如图3-2所示。这个数字就是佩奇等级的值,简称PR值。PR值越大表示网站越重要。在Google的工具栏上用鼠标指向PageRank的绿色条,就可以看到比如7/10这样的表示。这就是说,某一网页的PageRank是7。
编辑搜图
但是,这个工具栏上显示的其实是Toolbar PR,它对应的是一个真实的对数范围。在一些情况下,从工具栏上看到的PR不是很准确,有些是工具栏“猜”出的。
编辑搜图
请点击输入图片描述
佩奇等级的心脏是一个数学公式。它看起来挺害怕的,然而实际上执行的是简单的概率分析,在其中并没有复杂的理论。这里作者做些基本的解释。
【公式】:PR(A) = (1-d) + d (PR(Ti)/C(Ti) +…+ PR(Tn)/C(Tn))
其中:· PR(A):网页A的佩奇等级(PR)。
· PR(Ti):链接网页A的网页Ti的佩奇等级(PR)。“i ”可以从0到n,“n”是链接的总数,这个链接可以来自
任何网站的导入链接)。
· C(Ti):网页Ti往其他网站链接的数量。
· d:阻尼系数,介于0到1之间,Google设为0.85。
【解释】我们可以看到网页A的PR是由链接它的其他网页Ti所决定的。在网页Ti中如果有一个链接指向网页A,那么A就得到了一个“投票”,而这个投票来自网上任何一张网页。每个“投票”都是表示一份“支持”。越多的链接指向网页A,网页A的PR值或者等级就越高。没有链接就是没有一个网页支持A。
但是,链接网页A的那些Ti网页的PR值就不相同了。这里导出链接扮演了角色。不难理解,网页Ti的导出链接越多,点击指向网页A的可能性就越小。所以,网页Ti的PR值总是由导出链接的数量C(Ti)加权来决定的。这就解释了为什么不同的网页Ti给予网页A施加的影响是不同的。
加权的各个网页Ti的PR值和被阻尼指数d相乘。d的值一般设为0.85。
这个阻尼指数的添加是基于一种可能性——一个网页的来访者什么链接也不会点击。这种可能性是(1-d)。所以,一个网页的最小的PR值是0.15。如果一个网页什么链接都没有得到,那么这个公式的最小值也是(1-d)= 0.15,即PR值是0.15。如果一个网页Ti没有导出链接,那么这一页就没有PR值可以参与网页A的计算,而搜索引擎的探测器也不太有兴趣来访问这一页了。
正因为Google PageRank涉及到搜索排名,而且它又是可视性的(数值从0到10),所以它一直受到许多人的追捧,甚至把追求高PR值作为SEO是否成功的标志。这在5年前或许是真的,但是现在实际上是个误区。这是因为,Google的PageRank一年只更新4次或者5、6次,Google工具条上面看到的PR值是几个月之前的,其反映的并非是网页真实的PR值,而是一个缓冲值。工具条上的数字基本上是作为“娱乐”使用的,或者通俗地说“看起来好看”。决定排名的因素可以有上百种,而且许多远比这个重要。在许多情况下,低PR值的网页能排列在高PR值的网页前面,就是因为网站有更重要的排名因素在起作用,例如内文质量、网页标签、链接质量和对象选择等。如图3-3所示的是在Google.com中搜索
“callback service”的搜索结果前6位。作者的网站bestcallback.net的首页排列在第二,PR值是2,是6个搜索结果中最低的,其他的网站分别是5, 4, 5, 6, 5
编辑搜图
在Google.com中搜索“callback service
佩奇等级之所以被神圣化,无非是这种以数字来划分等级的方法很直观,能够用眼睛来“测量”SEO所谓的“效果”。如果一个投资者、企业主管依照这个来判断SEO的工作是否有效就好似一叶障目。尚奇的SEO专家基本上已经不再观察PR值。
对佩奇等级的正确理解是,Google依靠PR值的大小来确定爬虫访问的优先次序,并且判定一个网页是应该存在Google的正常索引(regularindex)内还是候补索引(supplemental index)里。收录在候补索引里的网页比较难以获得搜索排名。作者建议网站设计者、架构师要认识佩奇等级在Google判断网站质量中的重要作用,从设计前的考虑到后期网站更新都要给予佩奇等级足够的分析,很好地利用。
句话,PageRank关注的是一个网页的重要性,但是Google有更多的因素决定网页和搜索的相关度。我们希望看到的结果是人们根据兴趣搜索时,我们的网页能够出现。PageRank的数字不能反映你的网页在用户心目中的地位——当你的网页被收入用户的收藏夹时,这才是值得骄傲的。
2004年初Yahoo推出了自己的搜索排名技术——WebRank,仿效PageRank,也是出现在Yahoo的工具栏中,然而反响却不怎么热烈。