国家科技创新平台规划.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息获取技术的评估 (Retrieval Evaluation) 李晓明,北京大学信息科学技术学院 2004年12月2日 提 要 引言 常用的评估指标 评估的实践(评测) 引言 关于IR领域 文本?技术?系统?用户(普通,大量) 文本语义的丰富性(以及文本集合本身的变化),用户需求的多样性,模型的简单化 系统表现的终极评判在于它们所针对的用户群的评价(大量,长时间) 对系统的评估常常是基于对所包含各项技术评估基础上的 无论是从研究方法还是工程实践的角度,我们都需要能够评估各个单项技术对系统行为可能的贡献 更进一步地,若能将设计指标和评价指标结合起来则最好 System = t1 + t2 +…+ tl 系统包含若干技术,t 某人发明了一个新的 t,评价它的方式: 用它替换系统中的相应技术,看对总的效果的贡献 单独在一个评测环境中评价 前者往往代价较高(时间,费用) 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎 后者可能和真实系统应用有距离 能对这距离有把握也行 评估(技术,系统) 用户关心(系统的):F={f1, f2, …, fn} 相关性,新颖性,完整性,速度,… 但代价等原因使完整的评估比较困难 我们要确定(技术的):G={g1, g2, …, gm} 较小的代价能完成对它们的测试 对它们测试的结果和f1, f2, …, fn有很好的对应 最好还能有一套设计指标:P={p1, p2, …, pk} 能使我们心里有数:它们实现的程度对g1, g2, …, gm贡献的关系 (防止“irrelevance”) 汽车 用户关心:速度,启动加速度,刹车距离,… 发动机测试:转速,扭矩,马力 发动机设计:排量,气缸数,点火方式,… 汽车工业的实践已经证明了它们之间对应关系的有效性(尽管不是100%) 计算机 用户关心:速度 性能测试:SPEC 设计:主频,CPI,字长,Cache大小,… 计算机工业的实践也基本证明它们的对应关系是有效的 大学 用户(社会)关心:培养能够为人类社会的进步充分发挥潜能的人 测试:政府高级官员的数量,大文豪、大科学家的数量,… 设计的具体追求:得奖数,发表论文数(影响因子),博士学位获得者人数,科研经费数,… 实践证明如何? 评估 不断地对现有的F, G, P(及其相互关系)提出疑问,提出改进,是研究评估的人们应该考虑的基本任务 我们需要了解现在的F, G, P是些什么(如何定义的,如何能得到),但仅此不够。 事物都是在一个“目的”和“手段”链中发展的,这种链接关系的紧密程度就决定了达到目的的优化程度(效果、效率) 信息获取技术评估的“森林” 以批判的眼光看Pr,Re,F “Precision and recall have been used extensively to evaluate the retrieval performance of retrieval algorithms. However, a more careful reflection reveals problems with these two measures.” (page 81, Modern Information Retrieval) 先回顾它们的定义和计算 要评价技术T,对于给定的查询,q,总体文档集合D 记 R:D中和q相关文档的集合,|R|:R的大小 A:算法T获取的文档集合,|A|:A的大小 |Ra|:R和A交集的大小 查准率和召回率基础定义图示 需要考虑的几个问题 定义了,不等于能算了 如何算得针对(Q,D)的Pr, Re? 另外,人们认为在一定的排序意义上考察Pr, Re更有意义。 “ranked A”,沿着这个rank,考察“查准率(精度)随召回率变化的情况” 符合许多IR系统的实际情况,通常都会在结果集合上定义一个序 平均精度 对recall增加时对应的精度求平均值 和“原始定义”的区别? “针对11点标准召回率的精度” 人们建议在一些特殊的点上给出Re和Pr的关系 Re=0%, 10%, …, 100%,对应的Pr 于是就能很方便地讲“召回率为20%的时候精度为X”之类的结论 也还有“3点标准”的说法:25%, 50%, 75% 如果D中相关文档的个数是10的倍数,且如果算法给出的“Ranked A”包含了所有相关文档,得到这些点就会很简单;否则要考虑如何插值的问题 “省事的”例子 D={d1,…,d1000},对查询q,所有相关文档集合(共10个元素):Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123} 查询的返回结果序: d123*,d84,d56*,d6,d8,d9*,d511,d5*,d39*,d

文档评论(0)

ddwg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档