元搜索引擎与搜索引擎检索结果分析.pptVIP

元搜索引擎与搜索引擎检索结果分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
元搜索引擎与搜索引擎检索结果分析

搜索引擎检索结果分析 主要内容 搜索引擎的原理 元搜索引擎介绍 检索结果分析 搜索引擎的原理 主要功能 索引处理:建立可查找的数据结构 查询处理:利用数据结构和用户的查询生成排序 文档 搜索引擎的原理 索引处理功能 文本采集 文本转换 索引建立 文档数据库 索引 淘宝robots.txt heritrix 搜索引擎的原理 查询处理功能 搜索引擎的原理 评价 排序 用户交互 日志数据 文档数据库 索引 又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的查询问题同时提交给多个独立的搜索引擎,同时检索多个数据库;并根据多个独立搜索引擎的检索结果进行二次加工,如对检索结果去重、排序等,然后输出给用户。 元搜索引擎原理 元搜索引擎由三部分组成 请求提交机制:负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等 接口代理机制:负责将用户的检索请求翻译成满足不同搜索引擎本地化要求的格式 结果显示组件:负责所有元搜索引擎检索结果的去重、合并、输出处理等 元搜索引擎原理 搜索引擎拥有独立的网络资源采集标准机制和相应的数据库。 元搜索引擎一般来说没有自己独立的数据库,更多的是提供检索方式和结果整理,形成多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体。 元搜索引擎的出现,对于避免连续地使用不同的搜索引擎重复相同的检索,是一个很好的选择 元搜索引擎与搜索引擎的区别 搜索引擎: google,Yahoo!,ask jeeves,MSN 元搜索引擎:Dogpile 研究比较这些搜索引擎在首页给出的结果,与通过元搜索引擎Dogpile检索给出的结果 检索结果分析 对于大量的查询,不同搜索引擎在第一页给出结果的覆盖度 分析各个搜索引擎在第一页搜索结果中排名的区别 比较Dogpile和四大搜索引擎检索结果对比 研究目标 如何获得大量的随机性和代表性查询问题? 随机地从Infospace搜索站点的服务器访问日志文件中获得随机查询,为了保证用户的多样化,分别从工作日和休息日的日志中选择关键字;然后删除了重复的查询问题以及搜索引擎没有处理的查询问题。 检索结果分析 搜索结果数据如何收集? 预处理日志文件中的随机用户查询问题 设计.NET应用程序,自动检索各个搜索引擎,然后抓取各搜索引擎第一页结果 对于获得的查询问题列表,四个搜索引擎的检索时间段是相同的 从第一结果页中抓取结果,存储的数据包括:URL;检索结果的位置和类型 检索结果分析 如何计算覆盖率? 当所有的查询问题相关数据收集完后,就运行基于URL的覆盖率算法,对在一个搜索引擎上检索的URL匹配另外一个或者更多搜索引擎上的URL,就把这个URL作为查询结果记录下来 然后记录每一个查询问题在所有搜索引擎的第一结果页的量,最后把所有查询问题的量统计,计算覆盖率 检索结果分析 目标:不同搜索引擎在第一页给出结果的覆盖率 搜索引擎对12570个查询问题在第一页给出的平均检索结果数量。前四种搜索引擎给出的结果百分比都比较接近,付费检索结果比例在18~27%之间,非付费检索结果在73~82%之间。这些数据显示了各搜索引擎在检索付费结果和非付费结果时具有相似性。元搜索引擎的检索结果明显比其他搜索引擎检索结果更多 检索结果分析 在12570个查询问题的检索结果中,第一页给出了485460个结果。四种搜索引擎给出的结果综合占总的84.9%,两个搜索检索结果交集平均率为11.4%,三种搜索引擎平均交集率为2.6%,只有1.1%的结果是四种搜索引擎包含的。 检索结果分析 目标:分析各个搜索引擎在第一页搜索结果中排名的 区别 下表显示出,单个搜索引擎检索结果中,非付费结果占总检索结果的百分比,例如google为71.8%,第二列显示了google和其他任意一个搜索引擎非付费结果平均交叉覆盖结果的比例为28.2%。这可以看出不同搜索引擎对于web查询是有不同观点的,而我们使用单一搜索引擎检索结果是存在很大的局限性的。 检索结果分析 目标:比较Dogpile和四大搜索引擎检索结果对比 描述了元搜索引擎在第一个检索结果页给出的结果和四种搜索引擎检索结果的覆盖率。其中第一行,可以看出,Dogpile元搜索引擎检索的结果和四种搜索引擎检索结果都匹配的平均概率为99.3%,和其中任意三种搜索引擎检索结果匹配率平均值为95%,和任意一个搜索引擎检索结果的匹配率为30.4%。 检索结果分析 元搜索引

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档