浅谈搜索引擎体系结构与索引技术.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈搜索引擎体系结构与索引技术

浅谈搜索引擎体系结构与索引技术   摘要:随着Internet迅猛发展,搜索引擎已经成为人们进行信息获取必不可少的工具。本文介绍了搜索引擎的分类,探讨了搜索引擎的工作原理和体系结构,最后对其索引技术进行了研究。   关键词:搜索引擎;体系结构;工作原理      1 搜索引擎的分类      1.1 目录式搜索引擎   目录式搜索引擎(也称分类式搜索引擎)主要通过人工发现信息,由编辑人员根据信息资源的内容按一定的主题进行分类组织,并形成信息摘要,将信息置于事先确定的分类框架中,组织成一层一层的分类目录,目录下面有更具体的子目录。信息的类别也由大到小、由粗到细,整个搜索引擎形成了一个层次型的类别目录。用户可以逐层浏览,选择不同的主题对网络信息进行过滤,所选择的主题类别越小,信息的相关性就越高,用户就越有可能找到自己所需要的信息。这类搜索引擎的性能主要取决于对所获取网页的人工归类或自动分类算法的精确度如何。其代表有:Yahoo,LookSmart,Open,Directory,GoGuide等。例如,中文雅虎(Yahoo)有14个一级目录,最深有6级子目录,其使用的是手工录入方式得到Web页面摘要信息,而非全页面内容信息。其形成的具体方式是:首先维护人员对新Web站点进行浏览,然后对浏览内容进行内容提取,并形成摘要信息和关键字,最后将这些信息分类进行存储。由于Yahoo的普及程度非常高,因此现在Yahoo系统的维护人员不再需要到Internet上去寻找新Web站点,而是由新Web站点的发布者主动通过页面提交本站点的有关信息,系统的维护人员只需要对这些提交的信息进行归类存储,然后对外发布公开。   Yahoo给用户提供了两种查询方式:漫游查询和关键词自动搜索。漫游查询即用户利用浏览器在Yahoo的Web页面上按主题目录进行逐层深入地查找所需要的内容信息。关键词自动搜索方式是系统根据用户提交的查询关键词,自动对目录树结构进行搜索查找,返回符合条件的结果集。目录式搜索引擎的突出特点是具有比较好的信息质量,但由于采用手工进行Web页面信息的获取和维护,所以存在以下不足:信息覆盖率低,信息实时更新不够及时,目录维护耗费的人力资源大;基于关键词而非全文进行查询,可能在查询时造成某些相关信息的遗漏;采用漫游查询方式的效率不高,并且由于目录查询树结构的不断增大,查询某一特定主题的代价和时间开销会越来越大。   为了解决目录式搜索引擎存在的问题,人们引入了人工智能技术,用机器人(也称之为Robot,Spider,Wanderer,Worm)代替手工去发现、加工、整理信息,这样就出现了机器人搜索引擎。   1.2 机器人搜索引擎   为了解决目录式搜索引擎存在的问题人们引入了人工智能技术用机器人代替手工去发现加工整理信息这样就出现了机器人搜索引擎,机器人搜索引擎不需要人工收集信息而是由一个被称作机器人的计算机程序在网络上不停地爬行和搜索,依据一定的网络协议在Internet中自动获取网页信息并通过对网页内容和特征的分析采用一定的策略组织信息并建立自己的索引数据库为用户提供查询务。HotBot,InfoSeek,Google,Excite、天网等就是这类检索系统的典型代表。   1.3 元搜索引擎   由于单个搜索引擎的覆盖范围往往不会太广,为了找到自己所需要的信息,用户常常需要使用多个搜索引擎,以期望找到更多、更全、更准确的信息。但由于不同的搜索引擎在其查询语法以及接口界面上往往不同,需要用户重新学习和适应不同的检索方法,这给用户使用多个搜索引擎带来了极大的不便。为了解决这个问题,研究人员开发了元搜索引擎。元搜索引擎统一了不同搜索引擎的查询接口,由统一的元搜索引擎接口对用户提交的查询请求进行处理,分别将其转换为符合底层搜索引擎查询语法要求的子查询,同时向多个搜索引擎提交查询的结果,由底层搜索引擎在各自的索引数据库中进行查询。在各个搜索引擎返回检索结果后,元搜索引擎将子查询结果进行汇总、去重、重新排序等处理,最后向用户返回最终的检索结果。元搜索引擎系统一般都没有自己的索引数据库,而是以一个代理的角色,利用其它搜索引擎的数据库来进行服务。在层次上,元搜索引擎要比机器人搜索引擎和目录式搜索引擎要高。元搜索引擎系统的底层搜索引擎可以是机器人搜索引擎,也可以是目录式搜索引擎。元搜索引擎的优点是返回结果的信息量更大、更全,其查全率较高,解决了单个搜索引擎覆盖范围相对狭窄的局限,缺点是不能够充分利用下层搜索引擎的排序功能,用户需要做更多的筛选。这类搜索引擎的代表是MetaCrawler,SawyScarch,InfoMarket等。      2 搜索引擎的工作原理和体系结构      2.1 搜索引擎的工作原理   以机器人

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档