信息检索评价指标.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索的评价指标体系 评价IR的意义 IR评价研究的内容和程序 如何评价效果 评价指标分类 单个查询的评价指标 多个查询的评价指标 评价IR的意义 信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。 通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。 信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。 IR评价研究的内容 效率(Efficiency)—可以采用通常的评价方法 ??时间开销 ??空间开销 ??响应速度 效果(Effectiveness) ??返回的文档中有多少相关文档 ??所有相关文档中返回了多少 ??返回得靠不靠前 其他指标 ??覆盖率(Coverage) ??访问量 ??数据更新速度 IR评价研究的程序 一项完整的检索评价工作可分为以下5个步骤: (1)确定评价范围和目标 (2)选择评价方式 (3)设计或者制定评价方案 (4)实施评价方案 (5)总结与评价结论的形成 如何评价效果 相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。 The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合) SMART System,Gerald Salton, 1964-1988 (数千篇文档集合) TREC(Text Retrieval Conference), Donna Harman, 美国标准技术研究所, 1992 -(上百万篇文档),信息检索的“奥运会” 评价指标分类 对单个查询进行评估的指标 对单个查询得到一个结果 对多个查询进行评估的指标(通常用于对系统的评价) 求平均 关于召回率的计算 关于召回率和正确率的讨论(2) 单个查询评价指标(3)—P和R融合 单个查询评价指标(5) —引入序的作用 P-R曲线的例子 P-R曲线的例子 P-R曲线的插值问题 P-R曲线的优缺点 单个查询评价指标(6) —P-R曲线的单一指标 P-R曲线中的Breakpoint 单个查询评价指标(7) —引入序的作用 单个查询评价指标(8) —不考虑召回率 多个查询评价指标(9) 多个查询评价指标(10) 多个查询评价指标(11) MAP(MeanAP):对所有查询的AP求宏平均 多个查询下的查准率/查全率曲线,可通过计算其平均查准率得到,公式如下(Nq为查询的数量) : P(r) 是指查全率为r时的平均查准率, pi(r)指查全率为r时的第i个查询的查准率 . 面向用户的评价指标 搜索引擎的性能评价研究及评价指标 1.搜索引擎性能评价指标 (1)数据库规模与内容:收录范围、数据库内容、更新频率、重复率、死链接率等; (2)索引方法:索引方式、索引范围与深度等; (3)检索功能:基本检索功能和高级检索功能 (4)检索结果处理:排序方式、显示内容/格式、后处理功能 (5)分类功能:分类类目体系的深度、数量、合理性等 (6)用户界面:界面布局、联机帮助、界面定制、界面广告量 (7)汉字处理:词语切分、多内码处理/转换、中英文混合检索 (8)其他:响应时间、系统稳定性等 搜索引擎的评价指标 查全率与查准率研究的新进展: 相关性范畴 范畴0主要包括重复链接、死链接、不相关链接 范畴1主要包括技术上的相关链接,意指检索仅在技术上满足用户提问式,但与用户的需求没有相关性或者有相关性,但是内容太少或不充分 范畴2主要包括潜在有用的链接,例如与用户需求某个方面有关但不详尽,或者仅给出了指向属于范畴3页面的链接 范畴3主要包括十分有用的链接 搜索引擎的评价指标 前X命中记录查准率P(X):该指标主要用来反映信息检索系统在前X条检索结果中向用户提供相关信息的能力。 下面以P(20)为例,说明P(X)的含义与计算方法。 ①对前20条命中结果记录进行相关性判断和检验,并对每条结果赋予相关系数0或1,对应到前面的“相关性范畴”概念,凡属于范畴3的结果记录均是相关的,凡属于范畴0的结果记录均是不相关的,而属于范畴1、2的结果记录则可能相关,也可能不相关。 搜索引擎的评价指标 其他评价指标 GMAP GMAP NDCG NDCG NDCG NDCG NDCG NDCG 总结 最基本的评价指标:召回率、准确率 不足:1.一些评价指标,如R-准确率,MAP,P@10等,都只考虑经过pooling技术之后判断的相关文档的排序 2.对判断不相关文档与未经判断的文档的差别并没有考虑 3.测试集越来越大,由于相关性判断还基本上是人工判断,因此建立完整的相关性判断变得越来越难 * 图示覆

文档评论(0)

gcv458 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档