百度搜索引擎检索器的功能?
02.03 23:31:53发布
糊涂仙
这一节将分析搜索引擎的技术架构。搜索引擎主要包括下图所示的搜索器、索引器、检索器和用户接口共4个部分。
搜索器
什么是搜索器?先通过它的作用和搜索内容以及目的来了解。搜索器实现在互联网中漫游,发现和搜集信息的作用。搜索器搜集的内容主要包括html、xml、newsgroup文章、ftp文件、文字处理文档和多媒体信息等。主要目的是尽可能多且快地搜集互联网上的新信息,进而将之前已经搜集到的旧信息进行更新。关于搜索器,需要掌握其两种搜集信息的策略。
⑴通过宽度优先、深度优先或者启发式等方式,从一个起始URL集合开始,顺着URL中的超链接,循环地进行信息的搜索。
⑵ 根据域名、IP地址或者国家域名对Web空间进行划分,搜索器负责划分后Web空间的穷尽搜索任务。
为了提高信息发现和更新的速度,搜索器采用计算技术。主要的计算技术有分布式(计算方式的一种,是指将大的计算任务分成若干个小的任务来执行)和并行式(计算方式的一种,是指将计算任务同时执行)。其中,每天几百万网页的信息发现,是商业搜索引擎的一般工作量。透过其中的工作量,足以看出搜索器的工作之多及其重要程度。
在了解了上述内容之后,下面对搜索器进行进一步介绍。如果搜索引擎是一座房子,那么搜索器的作用就是,在“蜘蛛”的帮助下,让这座房子里的每一个角落,布满“蜘蛛”的足迹。在走走看看的同时,收集有用的、新的内容。
例如,下图是京东网首页的部分源代码,搜索器会根据“数字商品”等关键字所给的标签中的页面地址,进一步搜索相关页面。因为网站页面内容会随着时间变化,或因产品更新而进行更新,搜索器爬取的内容也会在重复搜索的过程中不断增加和积累。这样,保证用户在搜索时看到的结果总是最新最及时的。
索引器的功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种。客观索引项与文档的语意内容无关,内容索引项是用来反映文档内容的。
内容索引项分为单索引项和多索引项。其中,多索引项又常被称为短语索引项。通过给搜索引擎中的索引项赋予权值的方式,完成索引项对文档的区分度的表示,进而实现查询结果相关度的计算。
搜索器是在房间里漫步进行搜索,索引器需要做的工作,就是对搜索器经过搜索所获取的东西进行“编码”处理,以方便检索器的检索。例如上图中的这段html文件被搜索器搜索获取了,索引器就将该代码内容编个号,然后把这个编号放在索引器用来编号的文档中,当用户发出查找该内容的需求时,索引器通过这个编号能够快速地找出html文件。
检索器的功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
检索器的工作过程是,在用户向搜索引擎发出搜索指令后,代替搜索引擎去向索引器找相关搜索内容的编号,然后根据编号,让搜索器调取搜索到的对应编号的html文件内容。检索器主要起到检索html文件的作用,因为搜索器给出的相关内容范围比较大,检索器需要对检索到的内容与用户所需内容的相关性进行最后把关。例如,房间里有不止一个杯子,但有的杯子可能是泡茶叶的,也有的杯子可能是泡咖啡的,所以需要由检索器进行把关。
最多设置5个标签!
这一节将分析搜索引擎的技术架构。搜索引擎主要包括下图所示的搜索器、索引器、检索器和用户接口共4个部分。
搜索器
什么是搜索器?先通过它的作用和搜索内容以及目的来了解。搜索器实现在互联网中漫游,发现和搜集信息的作用。搜索器搜集的内容主要包括html、xml、newsgroup文章、ftp文件、文字处理文档和多媒体信息等。主要目的是尽可能多且快地搜集互联网上的新信息,进而将之前已经搜集到的旧信息进行更新。关于搜索器,需要掌握其两种搜集信息的策略。
⑴通过宽度优先、深度优先或者启发式等方式,从一个起始URL集合开始,顺着URL中的超链接,循环地进行信息的搜索。
⑵ 根据域名、IP地址或者国家域名对Web空间进行划分,搜索器负责划分后Web空间的穷尽搜索任务。
为了提高信息发现和更新的速度,搜索器采用计算技术。主要的计算技术有分布式(计算方式的一种,是指将大的计算任务分成若干个小的任务来执行)和并行式(计算方式的一种,是指将计算任务同时执行)。其中,每天几百万网页的信息发现,是商业搜索引擎的一般工作量。透过其中的工作量,足以看出搜索器的工作之多及其重要程度。
在了解了上述内容之后,下面对搜索器进行进一步介绍。如果搜索引擎是一座房子,那么搜索器的作用就是,在“蜘蛛”的帮助下,让这座房子里的每一个角落,布满“蜘蛛”的足迹。在走走看看的同时,收集有用的、新的内容。
例如,下图是京东网首页的部分源代码,搜索器会根据“数字商品”等关键字所给的标签中的页面地址,进一步搜索相关页面。因为网站页面内容会随着时间变化,或因产品更新而进行更新,搜索器爬取的内容也会在重复搜索的过程中不断增加和积累。这样,保证用户在搜索时看到的结果总是最新最及时的。
索引器的功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种。客观索引项与文档的语意内容无关,内容索引项是用来反映文档内容的。
内容索引项分为单索引项和多索引项。其中,多索引项又常被称为短语索引项。通过给搜索引擎中的索引项赋予权值的方式,完成索引项对文档的区分度的表示,进而实现查询结果相关度的计算。
搜索器是在房间里漫步进行搜索,索引器需要做的工作,就是对搜索器经过搜索所获取的东西进行“编码”处理,以方便检索器的检索。例如上图中的这段html文件被搜索器搜索获取了,索引器就将该代码内容编个号,然后把这个编号放在索引器用来编号的文档中,当用户发出查找该内容的需求时,索引器通过这个编号能够快速地找出html文件。
检索器的功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
检索器的工作过程是,在用户向搜索引擎发出搜索指令后,代替搜索引擎去向索引器找相关搜索内容的编号,然后根据编号,让搜索器调取搜索到的对应编号的html文件内容。检索器主要起到检索html文件的作用,因为搜索器给出的相关内容范围比较大,检索器需要对检索到的内容与用户所需内容的相关性进行最后把关。例如,房间里有不止一个杯子,但有的杯子可能是泡茶叶的,也有的杯子可能是泡咖啡的,所以需要由检索器进行把关。
一周热门 更多>