- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
陈龙斌,元搜索引擎
元搜索引擎
陈龙斌 控制工程
伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所说的信息丰富,知识贫乏的奇怪现象。搜索引擎正是为了解决这个迷航问题而出现的技术。
搜索引擎(Search?Engine简称SE)以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。现在,网上的搜索引擎有很多,比较著名的有Google,Yahoo,AltaVista,Dogpile,百度等。按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:目录式搜索引擎,以Yahoo为代表(最近改为使用全文搜索技术);全文搜索引擎,以Google为代表;元搜索引擎,以Dogpile为代表。一个单一搜索引擎的网络覆盖率最多只能覆盖到整Internet资源的30-50%,因而查全率便无法保障;再加上任何搜索引擎的设计,均有其特定的数据库索引范围、独特的功能和使用方法,以查准率亦无法保证;因此,要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎,并对返回结果进行比较、筛选和相互印证。
各个搜索引擎的用户接口是异构的,有其特定且复杂的界面和查询语法,这给用户同时使用多个系统带来了不便。一些研究人员针对这种状况而开发了元搜索引擎,其中比较著名的有MetaCrawler,SavvySearch5等。元搜索引擎首先对用户的查询请求进行预处理。分别转换为若干个底层搜索引擎能处理的格式,并将其发送给各个搜索引擎。例如:MetaCrawler同时检Yahoo、LookSmart、AltaVista等九个主要的搜索引擎。在各个搜索引擎返回检索结果后,元搜索引擎进行组合,并向用户返回最终的检索结果。由于元搜索引擎建立在搜索引擎的基础之上,因此对于设计人员而言,不需要建立和维护庞大的索引数据库,也不需要使用复杂的检索机制;对于用户而言,元搜索引擎提供了一个能够同时查询多个搜索引擎的集成界面,将各个搜索引擎的位置,接口等细节屏蔽了起来,同时也有可能获得更好的检索效果,元搜索引擎便应运而生。
元搜索引擎,也叫集搜索引擎,是指在统一的的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是对搜索引擎进行搜索的搜索引擎。元搜索与一般搜索引擎的最大不同在于它可以没有自己的资源库和机器人,它充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果返回给用户。元搜索引擎查全率高、搜索范围更多更大,查准率也并不低。
元搜索引擎包括Web服务器、结果数据库、检索式处理、Web处理接口、结果生成等几个部分,其中用户通过Web服务器访问元搜索引擎,而元搜索引擎则通过Web处理接口访问其它外部的搜索引擎。其系统结构如图1所示。
用户通过WWW服务访问元搜索引擎,向Web服务器提交检索式。当Web服务器收到查询请求时,先访问结果数据库,查看近期是否有相同的检索,如果有则直接返回保存的结果,完成查询;如果没有相同的检索,就分析检索式并转化成与所要查找各搜索引擎相应的检索式格式,然后送至Web处理接口模块。
Web处理接口通过并行的方式同时查询多个搜索引擎,把所有的结果集中到一起。根据各搜索引擎的重要性,以及所得结果的相关度,对结果进行抽取并排序,生成最终结果返回给用户。同时,把结果存到自己的数据库里,以备下次查询参考使用。??元数据整合方式是目前应用较多的跨平台系统。元搜索引擎主要运用于网页信息搜索,而现有各种电子资源数据库都提供相应的客户端接口,因此可利用元搜索引擎的原理对各个异构数据库进行统一检索。?
元搜索引擎是通过对多个全文数据库按一定标准(如DC)进行标引后,组成一个元数据集,通常用数据库方式储存。通过一个发布系统(WEB服务器)与客户端进行交互。
元搜索引擎是一种集合其他搜索引擎的搜索结果为一体,方便用户同时参考多个搜索引擎提供的搜索结果的搜索引擎。元搜索引擎的这种网络搜索方式侧重于过滤冗余无关的搜索结果,从而试图将最相关的搜索结果展示给搜索用户。但是另一方面,根据搜索请求关键词的普遍度,也可能给用户造成被上百万搜索结果页面淹没的后果。
元搜索引擎区别于独立搜索引擎,主要有这样一些特征:
①不用设立庞大网页数据库,节省存储设备
②提供了统一的外界模式,将一次查询提交到多个独立搜索引擎
③基于独立搜索引擎结果的二次加工
④标明结果记录的来源搜索引擎及其局部相关度,提供了全局相关度
目前,元搜索引擎的研究、开发十分活跃。它要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和
文档评论(0)