《信息检索的评价》教学教义.ppt

下载文档

4
0
约5.35千字
约 50页
2017-05-13 发布于浙江
举报
版权申诉
保障服务

《信息检索的评价》教学教义.ppt

1、本文档共50页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* 平均准确率上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能，对每个召回率水平下的准确率进行平均化处理，公式如下： Nq: the number of queries used Pi(r): the precision at recall level r for the i-th query 多个查询下进行检索算法的比较对多个查询，进行平均，有时该曲线也称为：查准率/查全率的值。如下为两个检索算法在多个查询下的查准率/查全率的值。第一个检索算法在低查全率下，其查准率较高。另一个检索算法在高查全率下，其查准率较高 * 适应性合理估计需要了解集合的所有文献这两个指标相互关联，评价不同方面，结合在一起形成单个测度更合适测的是批处理模式下查询集合性能，对现代信息检索系统，交互式是重要特征，对量化检索过程的性能指标可能会更合适新的评价指标随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现单值概括 * 单值概括（1）已检出的相关文献的平均准确率逐个考察检出新的相关文献，将准确率平均 Example1. d123 ?(1) 6. d9 ?(0.5) 11. d382. d84 7. d511 12. d483. d56 ?(0.66) 8. d129 13. d2504. d6 9. d187 14. d1135. d8 10. d25 ? (0.4) 15. d3 ? (0.3) (1+0.66+0.5+0.4+0.3)/5=0.57 * 单值概括（2） R-Precision 计算序列中前R个位置文献的准确率 R指与当前查询相关的文献总数 1. d123 ? 6. d9 ? 2. d84 7. d511 3. d56 ? 8. d129 4. d6 9. d187 5. d8 10. d25 ? R=10 and # relevant=4 R-precision=4/10=0.4 1. d123 2. d843. d56 ? R=3 and # relevant=1 R-precision=1/3=0.33 * 单值概括（3）准确率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录 RPA/B=0:对于第i个查询，两个算法有相同的性能 RPA/B0:对于第i个查询，算法A有较好的性能 RPA/B0:对于第i个查询，算法B有较好的性能 * 单值概括（3-1） 0.0 0.5 1.0 1.5 -0.5 -1.0 -1.5 1 2 3 4 5 6 7 8 9 10 Query Number 2 8 * 单值概括（4）概括统计表查询数检出的所有文献数量相关文献数应检出的相关文献数 …… 评价指标的不足前面提到的一些评价指标，如R-准确率，MAP，P@10等，都只考虑经过pooling技术之后判断的相关文档的排序对判断不相关文档与未经判断的文档的差别并没有考虑而目前随着互联网的发展，测试集越来越大，由于相关性判断还基本上是人工判断，因此建立完整的相关性判断变得越来越难 * Bpref指标只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下，bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下，bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为： * 举例下面举个例子来说明bpref的性能，假设检索结果集S为： S ={D1 ,D2 ·,D3 * ,D4 * ,D5 ·,D6 ,D7 ·,D8 ,D9 ,D10 } 其中D2、D5 和D7是相关文档，D3 和D4为未经判断的文档。对这个例子来说， R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)] * 单一相关文档检索的评价对于搜索引擎系统来讲，由于没有一个搜索引擎系统能够保证搜集到所有的网页，所以召回率很难计算，因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候，用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务 * RR排序倒数和MRR平均排序倒数 RR（Reciprocal Ranking）是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况， RR值具体为1/r，其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档，那么RR值为0 * MRR