- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二次检索
计算机检索技术 授课人:马建斌 majianbin@hebau.edu.cn 面授对象:计算机、电子信息专业本科生 2010年9月 第二章 信息检索的评价(IR evaluation) 信息检索的评价?? 基本指标:召回率、正确率 其他指标:F值 思考 ??为什么要评价? ??评价什么? ??如何评价? ??怎么基于实验结果,给出各项评价指标? 从竞技体育谈起 为什么要评估IR? ??通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高 类比:110米栏各项技术---起跑、途中跑、跨栏、步频、冲刺等等 ??信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。 IR中评价什么? ??效率(Efficiency)—可以采用通常的评价方法 ??时间开销 ??空间开销 ??响应速度 ??效果(Effectiveness) ??返回的文档中有多少相关文档 ??所有相关文档中返回了多少 如何评价效果? 相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。 ??The CranfieldExperiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合) ??SMART System,Gerald Salton, 1964-1988 (数千篇文档集合) ??TREC(TextREtrievalConference), Donna Harman, 美国标准技术研究所, 1992 -(上百万篇文档),信息检索的“奥运会” 评价指标分类 ??对单个查询进行评估的指标 ??对单个查询得到一个结果 ??对多个查询进行评估的指标(通常用于对系统的评价) ??求平均 评价指标(1) 四种关系的矩阵表示 评价指标(2) 召回率(Recall): RR/(RR + NR),返回的相关结果数占实际相关结果总数的比率,也称为查全率,R∈[0,1] 正确率(Precision): RR/(RR + RN),返回的结果中真正相关结果的比率,也称为查准率,P∈[0,1] 两个指标分别度量检索效果的某个方面,忽略任何一个方面都有失偏颇。两个极端情况:返回1篇,P=100%,但R极低;全部返回,R=1,但P极低 召回率和正确率一个计算例子 ??一个例子:查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档 关于正确率和召回率的讨论(1) ??“宁可错杀一千,不可放过一人”??偏重召回率,忽视正确率。冤杀太多。 ??判断是否有罪: ??如果没有证据证明你无罪,那么判定你有罪。??召回率高,有些人受冤枉 ??如果没有证据证明你有罪,那么判定你无罪。??召回率低,有些人逍遥法外 关于正确率和召回率的讨论(2) 虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样。因此,实际应用中应该考虑这点。 垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。 有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。 正确率和召回率的问题 两个指标分别衡量了系统的某个方面,但是为比较带来了难度,究竟哪个系统好? ??解决方法:单一指标,将两个指标融成一个指标 评价指标(3)—P和R融合 F值:召回率R和正确率P的调和平均值,if P=0 or R=0, then F=0, else 采用下式计算: E值:召回率R和正确率P的加权平均值,b1表示更重视P The End! * * ??世界记录vs. 世界最好成绩 ??110米栏世界记录:刘翔,中国,12’’88 ??男子马拉松世界最好成绩:保罗·特尔加特,肯尼亚,2小时4分55秒 ??评价要公平! ??环境要基本一致:天气、风速、跑道等等 ??比赛过程要一样:竞走中的犯规 ??指标要一样:速度、耐力 RR RN NR NN 整个文档集合 未检索出的相关文档 检索出的相关文档 检索出的不相关文档 未检索出的不相关文档 不相关 相关 未检索出 检索出 ??Recall=80/100=0.8 ??Precision=80/200=0.4 ??结论:召回率较高,但是正确率较低 *
文档评论(0)