《第6章元搜索引擎》-课件设计(公开).ppt

《第6章元搜索引擎》-课件设计(公开).ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 元搜索引擎 6.1 概念 1、也称为集合式的搜索引擎,将多个搜索引擎集合在一起,提供一个一致的界面,也可分为关键词检索和目录检索。 当用户发出检索请求后,该引擎自动利用多种其它的搜索引擎同时进行检索。 开发元搜索引擎,主要的理由是: 1)元搜索能够分散处理负载,增加检索的范围。 Web 数据量太大,而且增长迅猛,单个引擎的容量,处理能力难以扩展到很大的规模,所以每个引擎只能包含一部分 Web 文档。 2)元搜索具有较好的扩展性,可以加入多个成员引擎。它使得各个成员引擎规模变小,性能更好,这样成员引擎的检索响应时间短,还可以使得检索的内容保持最新。 3)有些 web 站点的内容不能用数据采集器抓取,只有用该站点提供的 API 访问。 4)检索更有效,用户为了找到满意的检索结果可能访问多个搜索引擎,直到找到结果位置,而元搜索引擎可以帮助用户自动完成这个任务。 3)查询分发:把来自检索界面的查询串翻译成特定的引擎的串。 4)结果合并: 如果成员引擎的相关函数不同,没有可比性,则逐个取返回结果队列的头部,如果成员引擎的相关函数相同,返回结果的权值具有可比性,可以按查询与引擎的相关系数加权各个返回队列,用多路最优归并算法合并结果形成全局有序队列。 结果合并过程中还要除去重复的文档,方法是取每个文档的索引纪录中摘要部分的前 20 字节和时间,如果都相同则认为是重复的,应去掉。 6.2 元搜索引擎的特征 拥有经过选择的搜索引擎。 统一的检索提问式(需要进一步的转换才可以提交给不同的搜索引擎) 搜索时间用户设定 检索方式存在差异(顺序、并行) 提供更多的检索方式(词组、自然语言) 结果显示(数据算法、界面表现) 6.3 元搜索引擎分类 简单元搜索引擎 复杂元搜索引擎 桌面型元搜索引擎 基于Web的元搜索引擎 6.3.1简单元搜索引擎 提供一个搜索引擎的列表,用户可以选择所用的搜索引擎。例如好东西网址 6.3.2桌面型元搜索引擎 以程序的方式提供给用户,运行在用户的机器上。如飓风搜索通,整合了近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐MP3,股票,新闻,购物搜索,购书搜索等的全方位互联网信息检索工具,完全兼容及嵌入IE,符合浏览及搜索习惯,搜索结果可以单个或全部分类保存。 飓风搜索通使用 6.3.3 基于Web的元搜索引擎 基于Web的元搜索引擎以Web的方式为用户提供元搜索服务。元搜索引擎分为并行处理式和串行处理式两大类。 并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理。 串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。 常用的元搜索引擎及其检索方法 1. Ixquick() (1)概述 Ixquick 由一家荷兰公司Surfboard Holding BV于1998年在纽约建立。Ixquick 自称是“世界最强大的搜索转移引擎”。利用Ixquick 进行搜索时,用户实际上是在同时利用多个流行的搜索引擎展开搜索。Ixquick的中文搜索界面如图3-13所示。 图3-13 Ixquick检索页面 常用的元搜索引擎及其检索方法 1. Ixquick() (2)Ixquick的检索功能 ① 搜索。 ② 强力搜索。 ③ 全球搜索。 ④ 全面精确的检索结果。 ⑤ 强力精选。借助Ixquick的删除重复结果功能,可以让随后的搜索只显示新结果,而不显示已经阅读过或拒绝过的结果。 图3-14 Ixquick检索结果页面 常用的元搜索引擎及其检索方法 2. MetaCrawler() (1)概述 MetaCrawler是1994年由华盛顿大学的Erik Selberg和Oren Etzioni开发的,是最早的一个多元型搜索引擎,曾被评为综合性能最优良的多元搜索引擎。2000年加入InfoSpace Network服务,隶属于InfoSpace公司。 MetaCrawler除了支持调用Google、Yahoo!、Ask Jeeves、About、FindWhat、Altavista、Overture等12个独立的搜索引擎外,还可以同时在9个源搜索引擎中进行并行查找,本身还提供涵盖近20个主题的目录检索服务。MetaCrawler提供的资源包括网页(Web)、图像(Images)、音频(Audio)、视频(Video)、黄页(Yell

文档评论(0)

沙卡娜 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档