信息检索评价指标.pptVIP

下载本文档

88
0
约1.3万字
约 45页
2016-12-12 发布于北京
举报
版权申诉

信息检索评价指标.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息检索的评价指标体系评价IR的意义 IR评价研究的内容和程序如何评价效果评价指标分类单个查询的评价指标多个查询的评价指标评价IR的意义信息检索评价是对信息检索系统性能（主要满足用户信息需求的能力）进行评估的活动。通过评估可以评价不同技术的优劣，不同因素对系统的影响，从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。 IR评价研究的内容效率(Efficiency)—可以采用通常的评价方法 ??时间开销 ??空间开销 ??响应速度效果(Effectiveness) ??返回的文档中有多少相关文档 ??所有相关文档中返回了多少 ??返回得靠不靠前其他指标 ??覆盖率(Coverage) ??访问量 ??数据更新速度 IR评价研究的程序一项完整的检索评价工作可分为以下5个步骤: （1）确定评价范围和目标（2）选择评价方式（3）设计或者制定评价方案（4）实施评价方案（5）总结与评价结论的形成如何评价效果相同的文档集合，相同的查询主题集合，相同的评价指标，不同的检索系统进行比较。 The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合) SMART System,Gerald Salton, 1964-1988 (数千篇文档集合) TREC(Text Retrieval Conference), Donna Harman, 美国标准技术研究所, 1992 -(上百万篇文档)，信息检索的“奥运会” 评价指标分类对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标(通常用于对系统的评价) 求平均关于召回率的计算关于召回率和正确率的讨论（2）单个查询评价指标(3)—P和R融合单个查询评价指标(5) —引入序的作用 P-R曲线的例子 P-R曲线的例子 P-R曲线的插值问题 P-R曲线的优缺点单个查询评价指标(6) —P-R曲线的单一指标 P-R曲线中的Breakpoint 单个查询评价指标(7) —引入序的作用单个查询评价指标(8) —不考虑召回率多个查询评价指标(9) 多个查询评价指标(10) 多个查询评价指标(11) MAP(MeanAP)：对所有查询的AP求宏平均多个查询下的查准率/查全率曲线，可通过计算其平均查准率得到，公式如下(Nq为查询的数量) ： P(r) 是指查全率为r时的平均查准率, pi(r)指查全率为r时的第i个查询的查准率 . 面向用户的评价指标搜索引擎的性能评价研究及评价指标 1.搜索引擎性能评价指标（1）数据库规模与内容：收录范围、数据库内容、更新频率、重复率、死链接率等；（2）索引方法：索引方式、索引范围与深度等；（3）检索功能：基本检索功能和高级检索功能（4）检索结果处理：排序方式、显示内容/格式、后处理功能（5）分类功能：分类类目体系的深度、数量、合理性等（6）用户界面：界面布局、联机帮助、界面定制、界面广告量（7）汉字处理：词语切分、多内码处理/转换、中英文混合检索（8）其他：响应时间、系统稳定性等搜索引擎的评价指标查全率与查准率研究的新进展：相关性范畴范畴0主要包括重复链接、死链接、不相关链接范畴1主要包括技术上的相关链接，意指检索仅在技术上满足用户提问式，但与用户的需求没有相关性或者有相关性，但是内容太少或不充分范畴2主要包括潜在有用的链接，例如与用户需求某个方面有关但不详尽，或者仅给出了指向属于范畴3页面的链接范畴3主要包括十分有用的链接搜索引擎的评价指标前X命中记录查准率P(X)：该指标主要用来反映信息检索系统在前X条检索结果中向用户提供相关信息的能力。下面以P(20)为例，说明P(X)的含义与计算方法。 ①对前20条命中结果记录进行相关性判断和检验，并对每条结果赋予相关系数0或1，对应到前面的“相关性范畴”概念，凡属于范畴3的结果记录均是相关的，凡属于范畴0的结果记录均是不相关的，而属于范畴1、2的结果记录则可能相关，也可能不相关。搜索引擎的评价指标其他评价指标 GMAP GMAP NDCG NDCG NDCG NDCG NDCG NDCG 总结最基本的评价指标：召回率、准确率不足：1.一些评价指标，如R-准确率，MAP，P@10等，都只考虑经过pooling技术之后判断的相关文档的排序 2.对判断不相关文档与未经判断的文档的差别并没有考虑 3.测试集越来越大，由于相关性判断还基本上是人工判断，因此建立完整的相关性判断变得越来越难 * 图示覆