检索评价信息科学技术学院.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
检索评价信息科学技术学院.ppt

检索评价 Wang Jimin Sept. 30, 2005 Outline ?检索性能的评价指标 测试集 检索性能评价的平台 TREC 中文Web测试集 CWT100g 检索性能的评价指标 系统评价主要包括 功能评价,即评价一个系统是否完成了它所侧重的目标。 性能评价,主要指标是时间与空间的开销。(如:对数据检索系统的评价) ? 信息检索系统还包括其他一些度量指标。 这是由于用户的查询请求本身具有模糊性,检出的结果不一定是精确答案。需要依照与查询的相关度,对结果集合的准确度进行评价。 检索评测基础 检索评测基础: 建立在测试参考集和一定的评价测度基础之上。 测试集由一个文档集、一组信息查询实例、对应于每个信息查询实例的一组相关文档(由专家提供)所组成。 ?检索策略的评价 对一个给定检索策略S,对每个信息查询实例,评测由S检出的结果集合与由专家提供的相关文档集之间的相似性,量化这一指标。 检索性能评价 评价的类型 实验室评价和真实环境评价,两者不同。有时,结果出入也较大。 由于在实验室封闭环境下的评价具有可重复性,目前仍是主流。 还有对交互查询进行评测,需要考查界面的设计、系统引导、会话持续时间等因素。 查全率和查准率 对某个测试参考集,信息查询实例为I,I对应的相关文档集合为R。假设用某个检索策略对I进行处理后,得到一个结果集合A。令Ra表示R与A的交集。 Ra 查全率(Recall):检出的相关文档个数与相关文档集合总数的比值,即R=|Ra| / |R| 查准率(Precision):检出的相关文档个数 与检出文档总数的比值,即P=|Ra| / |A| 查准率/查全率曲线 由于用户的查看是逐条进行相关性检查。故此,常用查准率/查全率曲线作为评价指标。 ? 11点标准查全率下的查准率曲线,计算查全率分别为(0%,10%, 20%,…, 100%)下的查准率。 Example 对查询q,专家判定的相关文档集合为 Rq = {d3,d5,d9,d25, d39,d44,d56,d71, d89,d123}. 假设某一检索算法对查询q,输出如右列的检索结果 此时,查全率Recall=5/10, 查准率 Precision=5/15。? 还可以看到:对应查全率为10%时的查准率为100%;对应查全率为20%时的查准率为66%;。。。。。对应查全率为60%时的查准率降为0。图示如下 Ranking for query q: d123* d84 d56* d6 d8 d9* d511 d129 d187 d25* d38 d48 d250 d113 d3* Ranking for query q: d123* d84 d56* d6 d8 d9* d511 d129 d187 d25* d38 d48 d250 d113 d3* 由于每个查询的查全率值不一定就是这11个标准查全率,因此需要对查准率进行插补。 如上例中,若Rq只含有3个文档 Rq = {d3, d56, d129}. 此时,如何计算11点标准查全率呢? 设rj{j=0,1,2,…,10}为第j个标准查全率的一个参量 (如r3是查全率为30%的参量),则: 即第j个标准查全率水平的查准率是介于第j个和第j+1个查全率之间任意一个查全率所对应的查准率的最大值。 Rq = {d3, d56, d129} Ranking for query q: d123* d84 d56* d6 d8 d9* d511 d129 d187 d25* d38 d48 d250 d113 d3* 多个查询下的查准率/查全率曲线,可通过计算其平均查准率得到,公式如下(Nq为查询的数量) 多个查询下进行检索算法的比较 对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。 第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高 另一种方法是:计算给定文档临界值处的平均查准率。如检出相关文档数为:5、10、15、20、30、50、100时的平均查准率。 ? 目前平均查准/查全率的值已经成为信息检索系统的一项标准评价指标。 它能对整个结果集的质量和检索算法的适用范围进行量化评价,因此非常有效。 单值概括 平均查准/查全率可能掩盖一些重要的不规则特征。 已检出的相关文献的平均查准率 基本思想:逐个考察排序中每一新的相关文献,然后对其查准率的值进行平均。 ?R-查准率 计算序列中第R个位置文献的查准率。通常,R是指与当前查询相关的文档总数

文档评论(0)

专业好文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6110200002000000

1亿VIP精品文档

相关文档