- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎发展初步探讨
搜索引擎发展初步探讨
〔摘 要〕随着科学研究的深入发展,人们对文献需求越来越广泛,对搜索引擎理论的研究正在朝着多元化、专业化方向发展。特别是新型文献载体的出现,开阔了搜索引擎理论研究的新视野。本文从搜索引擎的组成,搜索引擎的分类,如何识别搜索引擎的优劣,搜索引擎的未来发展动向等方面对搜索引擎技术做介绍。
〔关键词〕搜索引擎;发展;分类
〔中图分类号〕TP393.4 〔文献标识码〕A 〔文章编号〕1008-0821(2009)05-0020-03
Discussion on the Development of Search EngineZhou Yacui
(School of Computer Science and Engineering,Jilin Agricultural and Civil Engineering Institute,Changchun 130000,China)
〔Abstract〕With the development of scientific research,people have more requirements for literature,the study on search engine is more diversity and professional.The emergence of new literature carrier explored the new field for search engine study.This paper discussed the combination,classification and the development trend of search engine,expounded on how to recognize the good from the bad.
〔Keywords〕search engine;development;classification
1 搜索引擎的组成
一个搜索引擎是由搜索器、索引器、检索器和用户接口4个部分组成。
1.1 搜索器
搜索器的功能是在互联网中发现和搜集信息。它常常是一个计算机程序,需要昼夜不停地运行。它的任务就是收集各种信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息。目前有两种搜集信息的策略:从一个起始URL集合开始,顺着这些URL中的超级链接(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如)。将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的遍历搜索。搜索器搜集的信息文件类型有许多种,包括HTML、XML、FTP文件、Word文档以及大量的视频及音频信息。搜索器的实现常常采用分布式、并行计算等技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几亿个网页。
1.2 索引器
索引器的功能是分析搜索器所搜索到的信息,从中抽取出索引项,用于建立表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)2种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(Proximity)。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的时效性在很大程度上取决于索引的质量。
1.3 检索器
检索器的功能是根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索
文档评论(0)