第3章信息检索的评价.ppt

下载文档 降价啦

16
0
约3.68千字
约 47页
2015-10-06 发布于河南
举报
版权申诉
保障服务

第3章信息检索的评价.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第3章信息检索的评价

P-R曲线 * P-R 曲线的插值问题 * P-R的优缺点优点：简单直观既考虑了检索结果的覆盖度，又考虑了检索结果的排序情况缺点：单个查询的P-R曲线虽然直观，但是难以明确表示两个查询的检索结果的优劣 * 评价指标(6)—P-R曲线的单一指标 * P-R曲线中的BREAK POINT * 评价指标(7)－引入序的作用 * 评价指标(8)－不考虑召回率 * 评价指标分类对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标(通常用于对系统的评价) 求平均 * 评价指标(9) * 评价指标(10) * 整个IR系统的P-R曲线在每个召回率点上，对所有的查询在此点上的正确率进行算术平均，得到系统在该点上的平均正确率(averageprecision)。两个检索系统可以通过P-R曲线进行比较。位置在上面的曲线代表的系统性能占优。 * 几个IR系统的P-R曲线比较 * 面向用户的评价指标前面的指标都没有考虑用户因素。而相关不相关由用户判定。假定用户已知的相关文档集合为U，检索结果和U的交集为Ru，则可以定义覆盖率(Coverage) C=|Ru|/|U|，表示系统找到的用户已知的相关文档比例。假定检索结果中返回一些用户以前未知的相关文档Rk，则可以定义出新率(Novelty Ratio) N=|Rk|/(|Ru|+|Rk|)，表示系统返回的新相关文档的比例。 * 其他评价指标不同的信息检索应用或者任务还会采用不同的评价指标问答系统或主页发现系统：只有一个标准答案，只关心第一个标准答案返回的位置Rank，越前越好，评价指标 1/Rank * 提纲信息检索的评价基本指标：召回率、正确率其他指标：F值、AP、MAP TREC会议概况 * TREC 概况 * TREC的目标(1) 总目标：支持在信息检索领域的基础研究，提供对大规模文本检索方法的评估办法 1.鼓励对基于大测试集合的信息检索方法的研究 2.提供一个可以用来交流研究思想的论坛，增进工业界、学术界和政府部门之间的互相了解 * TREC的目标(2) 3.示范信息检索理论在解决实际问题方面的重大进步，提高信息检索技术从理论走向商业应用的速度； 4.为工业界和学术界提高评估技术的可用性，并开发新的更为适用的评估技术。 * TREC的运行方式(1) TREC由一个程序委员会管理。这个委员会包括来自政府、工业界和学术界的代表 TREC以年度为周期运行。过程为：确定任务→参加者报名 →参加者运行任务→ 返回运行结果→ 结果评估 →大会交流一开始仅仅面向文本，后来逐渐加入语音、图像、视频方面的评测 * TREC的运行方式(2) 确定任务：NIST提供测试数据和测试问题报名：参加者根据自己的兴趣选择任务运行任务：参加者用自己的检索系统运行测试问题，给出结果返回结果：参加者向NIST返回他们的运行结果，以便评估结果评估：NIST使用一套固定的方法和软件对参加者的运行结果给出评测结果大会交流：每年的11月召开会议，由当年的参加者们交流彼此的经验 * TREC的运行方式(3) * 测试数据和测试软件由LDC(Linguistic Data Consortium)等多家单位免费提供，但有些数据需要缴纳费用，一般都必须签订协议每年使用的数据可以是新的，也可以是上一年度已经使用过的 TREC使用的评估软件是开放的，任何组织和个人都可以用它对自己的系统进行评测 * TREC任务情况 * 历届TREC参加单位数示意图 * 参加过TREC的部分单位 * 本章小结为什么要评价？如何评价？各种评价指标(正确率、召回率、平均正确率)的定义及计算方法基本指标：正确率、召回率 TREC会议 * 课后练习题 * ?#? ?#? ?#? ?#? ?#? ?#? ?#? ?#? ?#? 现代信息检索MODERN INFORMATION RETRIEVAL 第二章信息检索的评价(IR evaluation) 课前思考题为什么要评价？评价什么？如何评价？怎么基于实验结果，给出各项评价指标？ * 提纲信息检索的评价基本指标：召回率、正确率其他指标：F值、AP、MAP TREC会议概况 * 提纲信息检索的评价基本指标：召回率、正确率其他指标：F值、AP、MAP TREC会议概况 * 从竞技体育谈起世界记录 vs. 世界最好成绩 110米栏世界记录：刘翔，中国，12’’88 男子马拉松世界最好成绩：保罗· 特尔加特，肯尼亚，2小时4分55秒评价要公平！环境要基本一致：天气、风速、跑道等等比赛过程要一样：竞走中的犯规指标要一样：速度、耐力 * 为什么要评估IR？通过评估可以评价不同技术的优劣

您可能关注的文档

文档评论（0）

9885fp + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第3章 信息检索的评价.ppt