国家科技创新平台规划.pptVIP

下载本文档

8
0
约3.99千字
约 34页
2019-07-09 发布于河南
举报
版权申诉

国家科技创新平台规划.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息获取技术的评估（Retrieval Evaluation）李晓明，北京大学信息科学技术学院 2004年12月2日提要引言常用的评估指标评估的实践（评测）引言关于IR领域文本?技术?系统?用户（普通，大量）文本语义的丰富性（以及文本集合本身的变化），用户需求的多样性，模型的简单化系统表现的终极评判在于它们所针对的用户群的评价（大量，长时间）对系统的评估常常是基于对所包含各项技术评估基础上的无论是从研究方法还是工程实践的角度，我们都需要能够评估各个单项技术对系统行为可能的贡献更进一步地，若能将设计指标和评价指标结合起来则最好 System = t1 + t2 +…+ tl 系统包含若干技术，t 某人发明了一个新的 t，评价它的方式: 用它替换系统中的相应技术，看对总的效果的贡献单独在一个评测环境中评价前者往往代价较高（时间，费用）例如研究搜索引擎排序算法的不一定有机会摆弄真正的，有大规模用户的搜索引擎后者可能和真实系统应用有距离能对这距离有把握也行评估（技术，系统）用户关心（系统的）：F={f1, f2, …, fn} 相关性，新颖性，完整性，速度，… 但代价等原因使完整的评估比较困难我们要确定（技术的）：G={g1, g2, …, gm} 较小的代价能完成对它们的测试对它们测试的结果和f1, f2, …, fn有很好的对应最好还能有一套设计指标：P={p1, p2, …, pk} 能使我们心里有数：它们实现的程度对g1, g2, …, gm贡献的关系（防止“irrelevance”）汽车用户关心：速度，启动加速度，刹车距离，… 发动机测试：转速，扭矩，马力发动机设计：排量，气缸数，点火方式，… 汽车工业的实践已经证明了它们之间对应关系的有效性（尽管不是100%）计算机用户关心：速度性能测试：SPEC 设计：主频，CPI，字长，Cache大小，… 计算机工业的实践也基本证明它们的对应关系是有效的大学用户（社会）关心：培养能够为人类社会的进步充分发挥潜能的人测试：政府高级官员的数量，大文豪、大科学家的数量，… 设计的具体追求：得奖数，发表论文数（影响因子），博士学位获得者人数，科研经费数，… 实践证明如何？评估不断地对现有的F, G, P（及其相互关系）提出疑问，提出改进，是研究评估的人们应该考虑的基本任务我们需要了解现在的F, G, P是些什么（如何定义的，如何能得到），但仅此不够。事物都是在一个“目的”和“手段”链中发展的，这种链接关系的紧密程度就决定了达到目的的优化程度（效果、效率）信息获取技术评估的“森林” 以批判的眼光看Pr,Re,F “Precision and recall have been used extensively to evaluate the retrieval performance of retrieval algorithms. However, a more careful reflection reveals problems with these two measures.” (page 81, Modern Information Retrieval) 先回顾它们的定义和计算要评价技术T，对于给定的查询，q，总体文档集合D 记 R：D中和q相关文档的集合，|R|：R的大小 A：算法T获取的文档集合，|A|：A的大小 |Ra|：R和A交集的大小查准率和召回率基础定义图示需要考虑的几个问题定义了，不等于能算了如何算得针对（Q,D）的Pr, Re？另外，人们认为在一定的排序意义上考察Pr, Re更有意义。 “ranked A”，沿着这个rank，考察“查准率（精度）随召回率变化的情况” 符合许多IR系统的实际情况，通常都会在结果集合上定义一个序平均精度对recall增加时对应的精度求平均值和“原始定义”的区别？ “针对11点标准召回率的精度” 人们建议在一些特殊的点上给出Re和Pr的关系 Re=0%, 10%, …, 100%，对应的Pr 于是就能很方便地讲“召回率为20%的时候精度为X”之类的结论也还有“3点标准”的说法：25%, 50%, 75% 如果D中相关文档的个数是10的倍数，且如果算法给出的“Ranked A”包含了所有相关文档，得到这些点就会很简单；否则要考虑如何插值的问题 “省事的”例子 D={d1,…,d1000}，对查询q，所有相关文档集合（共10个元素）：Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123} 查询的返回结果序： d123*，d84，d56*，d6，d8，d9*，d511，d5*，d39*，d