- 10
- 0
- 约3.35千字
- 约 36页
- 2022-06-15 发布于四川
- 举报
* * 信息获取技术的评估(Retrieval Evaluation) 李晓明,北京大学信息科学技术学院 2004年12月2日 * 提 要 引言 常用的评估指标 评估的实践(评测) * 引言 关于IR领域 文本?技术?系统?用户(普通,大量) 文本语义的丰富性(以及文本集合本身的变化),用户需求的多样性,模型的简单化 系统表现的终极评判在于它们所针对的用户群的评价(大量,长时间) 对系统的评估常常是基于对所包含各项技术评估基础上的 无论是从研究方法还是工程实践的角度,我们都需要能够评估各个单项技术对系统行为可能的贡献 更进一步地,若能将设计指标和评价指标结合起来则最好 * System = t1 + t2 +…+ tl 系统包含若干技术,t 某人发明了一个新的 t,评价它的方式: 用它替换系统中的相应技术,看对总的效果的贡献 单独在一个评测环境中评价 前者往往代价较高(时间,费用) 例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎 后者可能和真实系统应用有距离 能对这距离有把握也行 * 评估(技术,系统) 用户关心(系统的):F={f1, f2, …, fn} 相关性,新颖性,完整性,速度,… 但代价等原因使完整的评估比较困难 我们要确定(技术的):G={g1, g2, …, gm} 较小的代价能完成对它们的测试 对它们测试的结果和f1, f2, …, fn有很好的对应 最好还能有一套设计指标:P={p1, p2, …, pk} 能使我们心里有数:它们实现的程度对g1, g2, …, gm贡献的关系 (防止“irrelevance”) * 汽车 用户关心:速度,启动加速度,刹车距离,… 发动机测试:转速,扭矩,马力 发动机设计:排量,气缸数,点火方式,… 汽车工业的实践已经证明了它们之间对应关系的有效性(尽管不是100%) * 计算机 用户关心:速度 性能测试:SPEC 设计:主频,CPI,字长,Cache大小,… 计算机工业的实践也基本证明它们的对应关系是有效的 * 大学 用户(社会)关心:培养能够为人类社会的进步充分发挥潜能的人 测试:政府高级官员的数量,大文豪、大科学家的数量,… 设计的具体追求:得奖数,发表论文数(影响因子),博士学位获得者人数,科研经费数,… 实践证明如何? * 评估 不断地对现有的F, G, P(及其相互关系)提出疑问,提出改进,是研究评估的人们应该考虑的基本任务 我们需要了解现在的F, G, P是些什么(如何定义的,如何能得到),但仅此不够。 事物都是在一个“目的”和“手段”链中发展的,这种链接关系的紧密程度就决定了达到目的的优化程度(效果、效率) * 信息获取技术评估的“森林” * 以批判的眼光看Pr,Re,F “Precision and recall have been used extensively to evaluate the retrieval performance of retrieval algorithms. However, a more careful reflection reveals problems with these two measures.” (page 81, Modern Information Retrieval) * 先回顾它们的定义和计算 要评价技术T,对于给定的查询,q,总体文档集合D 记 R:D中和q相关文档的集合,|R|:R的大小 A:算法T获取的文档集合,|A|:A的大小 |Ra|:R和A交集的大小 * 查准率和召回率基础定义图示 Collection Answer Set |A| Relevant Docs |R| Relevant Docs in Answer Set |Ra| * 需要考虑的几个问题 定义了,不等于能算了 如何算得针对(Q,D)的Pr, Re? 另外,人们认为在一定的排序意义上考察Pr, Re更有意义。 “ranked A”,沿着这个rank,考察“查准率(精度)随召回率变化的情况” 符合许多IR系统的实际情况,通常都会在结果集合上定义一个序 * * 平均精度 对recall增加时对应的精度求平均值 和“原始定义”的区别? 这样的“平均精度”有什么不好? * “针对11点标准召回率的精度” 人们建议在一些特殊的点上给出Re和Pr的关系 Re=0%, 10%, …, 100%,对应的Pr 于是就能很方便地讲“召回率为20%的时候精度为X”之类的结论 也还有“3点标准”的说法:25%, 50%, 75% 如果D中相关文档的个数是10的倍数,且如果算法给出的“Ranked A”包含了所有相关文档,得到这些点就会很简单;否则要考虑如何插值的问题 * “省事的”例子 D={d1,…,d
您可能关注的文档
最近下载
- 建筑室内施工图深化设计梁佳慧建筑工程系57课件讲解.pptx VIP
- 2024年世界职业院校技能大赛高职组“市政管线(道)数字化施工组”赛项考试题库资料.pdf
- 1.1 搭建生命体的“积木”(课件)-五年级科学下册(苏教版).pptx VIP
- 三年级数学面积应用题专项练习题.doc VIP
- 【CNAS CL01 2018内部管理评审报告】 2018年IEC17025 检测和校准实验室能力认可准则管理体系审核资料.docx VIP
- 2025年房地产经纪人房产税与相关税种(城镇土地使用税、契税)辨析专题试卷及解析.pdf VIP
- 空天科技机器征途.ppt
- 第六章 人类与土壤圈.doc VIP
- 地震演练总结通用5篇.doc VIP
- 建筑室内施工图深化设计梁佳慧建筑工程系36课件讲解.pptx VIP
原创力文档

文档评论(0)