- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息组织参考资料.doc
现代技术——搜索引擎原理剖析及其技术发展
[摘要]搜索引擎是一个集多种技术于一体的综合性系统。文章对搜索引擎的工作原理进行剖析,对搜索引擎的各个组成部分所涉及的主流技术进行了详尽的阐述。元搜索引擎作为一种新型的搜索引擎,文中对此进行了分析和比较。在了解搜索的原理,搜索引擎的技术所依赖的理论模型,以及在此领域已有的研究成果的基础上,展望了未来搜索引擎的发展趋势。
[关键词]搜索引擎Robot搜索排序向量空间模型元搜索引擎
[分类号]G354.4
随着Internet的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。搜索引擎作为Internet上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。搜索引擎可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。搜索引擎是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。
1搜索引擎的工作原理
搜索引擎(searchengine)是利用信息挖掘系统在网际空间寻找和挖掘相关或有用信息,在此基础上建立检索数据库,并通过提供简单友好的查询界面帮助用户进行网络信息检索的信息服务系统或工具。搜索引擎实际是Internet上的一类网站,这类网站与一般的网站不同,其主要工作是自动搜寻Web服务器的信息,将信息进行分类、建立索引,然后把索引的内容存放到数据库中,便于以查询和利用的方式提交给用户。
搜索引擎主要由四部分组成,即信息采集器(Robot或Spider或Crawler)、分析索引器(Indexer)、检索器(Searcher)和查询接口(QueryInterface)。当前主流的搜索引擎的组成和结构中,一般还包括挖掘器,进行Web挖掘和用户信息挖掘。
Robot也就是Spider或Crawler,从事先制定好的URL列表出发自动访问WWW网页,分析提取网页中超文本的URL,将其加入列表,并根据URL列表进一步访问其他网页。分析索引器是一个数据库,Robot采集到的网页信息全部存于其中。数据库的规模直接影响了系统查询的查全率。有些记录了网页的全部内容,对整个HTML文件的所有单词都建立索引,有的只记录网页的地址、标题、关键词、摘要等信息,还有的能处理HTML文件中的META的标记或其他不可见的特殊标记。检索器根据用户查询在索引库中快速检索出文档,并按照一定的算法进行结果页的排序;查询接口提供用户访问的查询界面和服务端的查询程序,当用户查询一个关键词时,搜索引擎将搜索数据库,找出所有与关键词相符合的网页,按照一定算法生成结果网页返回用户浏览器。
以下分别讨论搜索引擎的各个组成部分,其连接机制如图1所示(参考天网搜索引擎设计模型)。
1.1信息采集器
信息采集器(Robot)的主要功能是从WWW上获取网页和超链结构信息。WWW结构是一个以网页为节点,超链为边的有向图,因此,Robot的运行可以抽象为一个有向图的遍历过程。当Robot运行时,只要提供少量用户配置的起始网页,Robot能根据一定的算法,获取新的网页和超链,并沿着这些超链在网络上漫游,收集信息资源。Robot对网站的访问是周期性的,一般为每月一次或数次,访问次数视网页的更新频率而定。Robot的性能很大程度上影响了搜索引擎站点的规模。
1.2分析索引器
分析索引器的主要功能是分析收集的信息,建立索引库以供查询。分析索引器的工作可拆分为两部分,即分析器和索引器。首先,分析器根据网上数据的特点,按照特定的算法,对已经搜集获得的网页和超链信息进行分析,从中提取和用户检索相关的网页描述信息;然后,索引器对已分析好的网页的抽象数据中抽出索引项,建立索引。索引项又分为客观索引项和内容索引项:客观索引项与文档的语义内容无关,如作者名、URL、更新时间、编码长度、链接频次度等;内容索引项反映文档内容,如关键词及其等级值、短语、单字等。内容索引项包括单字索引项和短语索引项。索引器建立内容索引项时,对于英文来讲是比较容易提取的,因为英文单词之间有空格来分隔,而对于像中文等连续书写的语言,就必须进行词语的切分,这就涉及到中文搜索引擎中的切词技术。
分析器分析所得的网页描述信息,都是页面到页面描述数据的正排表。索引器的核心工作就是重新整理这些网页描述信息,对必要的数据项建立倒排表(包括关键词到网页的倒排表、站点到网页的倒排表等),为用户的检索做准备。
分析索引器是搜索引擎的核心技术之一,它的策略很大程度上影响了搜索引擎的效率与准确性。目前,比较常用的方法是对网页的标题(Title)和内容(Comment)进行索引。
1.3检索器
检索器的功能是接
文档评论(0)