《统计自然语言处理与信息检索》信息检索new2-评价.pptVIP

《统计自然语言处理与信息检索》信息检索new2-评价.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
其它评价指标 Break Point:P-R曲线上P=R的那个点 信息检索 第二部分:评价 孙越恒 Email:yhs@ 提纲 概述 基本指标:precision、recall、F-measure TREC评测 TREC的查询形式 Pooling技术 MAP(算术平均精度) 11-point AP(11点平均精度) 为什么要评估IR? 通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高 信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。 评价IR系统的困难 相关性不是二值评价,而是一个连续的量 从人的立场上看,相关性是: 主观的,依赖于特定用户的判断 和情景相关的,依赖于用户的需求 认知的,依赖于人的认知和行为能力 时变的,随着时间而变化 IR中评价什么? 效率(Efficiency)—可以采用通常的评价方法 时间开销 空间开销 响应速度 效果(Effectiveness) 返回的文档中有多少相关文档 所有相关文档中返回了多少 返回得靠不靠前 其他指标 覆盖率(Coverage) 访问量 数据更新速度 如何评价效果? 相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。 The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合) SMART System, Gerald Salton, 1964-1988 (数千篇文档集合) TREC(Text REtrieval Conference), Donna Harman, 美国标准技术研究所, 1992 -(上百万篇文档),信息检索的“奥运会” 提纲 概述 基本指标:precision、recall、F-measure TREC评测 TREC的查询形式 Pooling技术 MAP(算术平均精度) 11-point AP(11点平均精度) 精确率(precision)和召回率(recall) precision=检出的相关文档数/检出文档数,也称查准率 recall=检出的相关文档数/相关文档总数,也称查全率 两个指标分别度量检索效果的某个方面,忽略任何一个方面都有失偏颇。两个极端情况:返回1篇,P=100%,但R极低;全部返回,R=1,但P极低 Precision和recall的一个简单例子 一个例子:查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档 Recall=80/100=0.8 Precision=80/200=0.4 结论:召回率较高,但是精确率较低 precision和recall的关系 1 精确率 召 回 率 1 0 返回了大多数相关文档 但是包含很多垃圾 返回最相关的文本 但是漏掉了很多相关文本 理想情形 一个Query,P-R曲线如何生成? F-measure 两个指标分别衡量了系统的某个方面,但是为比较带来了难度,究竟哪个系统好? 解决方法:单一指标,将两个指标融成一个指标 F-measure:召回率R和正确率P的调和平均值,if P=0 or R=0, then F=0, else 采用下式计算: 提纲 概述 基本指标:precision、recall、F-measure TREC评测 TREC的查询形式 Pooling技术 MAP(算术平均精度) 11-point AP(11点平均精度) TREC评测(Benchmark) TREC: Text REtrieval Conference (/) 1992年开始,每年一次 由美国国防部Defense Advanced Research Projects Agency (DARPA)和美国国家标准技术协会National Institute of Standards and Technology (NIST)联合发起 参加者免费获得标准训练和测试数据 参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者 组织者对各参赛者的结果进行评价 包括检索、过滤、问答等多个主题 TREC 中的查询(query) num Number: 508 title hair loss is a symptom of what diseases desc Description: Find diseases for which hair loss is a symptom. narr Narrative: A document is relevant if it positively connects the loss of head hair in humans with a spec

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档