第3章 信息检索的评价.ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 信息检索的评价

P-R曲线 * P-R 曲线的插值问题 * P-R的优缺点 优点: 简单直观 既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况 缺点: 单个查询的P-R曲线虽然直观,但是难以明 确表示两个查询的检索结果的优劣 * 评价指标(6)—P-R曲线的单一指标 * P-R曲线中的BREAK POINT * 评价指标(7)-引入序的作用 * 评价指标(8)-不考虑召回率 * 评价指标分类 对单个查询进行评估的指标 对单个查询得到一个结果 对多个查询进行评估的指标(通常用于对系统的评价) 求平均 * 评价指标(9) * 评价指标(10) * 整个IR系统的P-R曲线 在每个召回率点上,对所有的查询在此点上的正确率进行算术平均,得到系统在该点上的平均正确率(averageprecision)。 两个检索系统可以通过P-R曲线进行比较。位置在上面的曲线代表的系统性能占优。 * 几个IR系统的P-R曲线比较 * 面向用户的评价指标 前面的指标都没有考虑用户因素。而相关不相关由用户判定。 假定用户已知的相关文档集合为U,检索结果和U的交集为Ru,则可以定义覆盖率(Coverage) C=|Ru|/|U|,表示系统找到的用户已知的相关文档比例。 假定检索结果中返回一些用户以前未知的相关文档Rk,则可以定义出新率(Novelty Ratio) N=|Rk|/(|Ru|+|Rk|),表示系统返回的新相关文档的比例。 * 其他评价指标 不同的信息检索应用或者任务还会采用不同的评价指标 问答系统或主页发现系统:只有一个标准答案,只关心第一个标准答案返回的位置Rank,越前越好,评价指标 1/Rank * 提纲 信息检索的评价 基本指标:召回率、正确率 其他指标:F值、AP、MAP TREC会议概况 * TREC 概况 * TREC的目标(1) 总目标:支持在信息检索领域的基础研究,提供对大规模文本检索方法的评估办法 1.鼓励对基于大测试集合的信息检索方法的研究 2.提供一个可以用来交流研究思想的论坛,增进工业界、学术界和政府部门之间的互相了解 * TREC的目标(2) 3.示范信息检索理论在解决实际问题方面 的重大进步,提高信息检索技术从理论 走向商业应用的速度; 4.为工业界和学术界提高评估技术的可用 性,并开发新的更为适用的评估技术。 * TREC的运行方式(1) TREC由一个程序委员会管理。这个委员会包括来自政府、工业界和学术界的代表 TREC以年度为周期运行。过程为:确定任务→参加者报名 →参加者运行任务→ 返回运行结果→ 结果评估 →大会交流 一开始仅仅面向文本,后来逐渐加入语音、图像、视频方面的评测 * TREC的运行方式(2) 确定任务:NIST提供测试数据和测试问题 报名:参加者根据自己的兴趣选择任务 运行任务:参加者用自己的检索系统运行测试问题,给出结果 返回结果:参加者向NIST返回他们的运行结果,以便评估 结果评估:NIST使用一套固定的方法和软件对参加者的运行结果给出评测结果 大会交流:每年的11月召开会议,由当年的参加者们交流彼此的经验 * TREC的运行方式(3) * 测试数据和测试软件 由LDC(Linguistic Data Consortium)等多家单位免费提供,但有些数据需要缴纳费用,一般都必须签订协议 每年使用的数据可以是新的,也可以是上一年度已经使用过的 TREC使用的评估软件是开放的,任何组织和个人都可以用它对自己的系统进行评测 * TREC任务情况 * 历届TREC参加单位数示意图 * 参加过TREC的部分单位 * 本章小结 为什么要评价? 如何评价? 各种评价指标(正确率、召回率、平均正 确率)的定义及计算方法 基本指标:正确率、召回率 TREC会议 * 课后练习题 * ?#? ?#? ?#? ?#? ?#? ?#? ?#? ?#? ?#? 现代信息检索 MODERN INFORMATION RETRIEVAL 第二章 信息检索的评价(IR evaluation) 课前思考题 为什么要评价? 评价什么? 如何评价? 怎么基于实验结果,给出各项评价指标? * 提纲 信息检索的评价 基本指标:召回率、正确率 其他指标:F值、AP、MAP TREC会议概况 * 提纲 信息检索的评价 基本指标:召回率、正确率 其他指标:F值、AP、MAP TREC会议概况 * 从竞技体育谈起 世界记录 vs. 世界最好成绩 110米栏世界记录:刘翔,中国,12’’88 男子马拉松世界最好成绩:保罗· 特尔加特,肯尼亚,2小时4分55秒 评价要公平! 环境要基本一致:天气、风速、跑道等等 比赛过程要一样:竞走中的犯规 指标要一样:速度、耐力 * 为什么要评估IR? 通过评估可以评价不同技术的优劣

文档评论(0)

9885fp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档