现代信息检索教程文件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代信息检索教程文件.ppt

现代信息检索 其他评价指标 Adaptive Batch filtering Utility=A*R++B*N++ C*R-+D*N- T11U=2* R+-N+ P=R+/(R++N+), R=R+/(R++R-) T11F=1.25/(0.25/R+1/P) 归一化平均 现代信息检索 近几年出现的新的评价指标 Bpref GMAP NDCG *增加于2007年9月20日 现代信息检索 Bpref Bpref:Binary preference,2005年首次引入到TREC的Terabyte任务中 基本的思想:在相关性判断(Relevance Judgement) 不完全的情况下,计算在进行了相关性判断的文档集合中,在判断到相关文档前,需要判断的不相关文档的篇数 相关性判断完全的情况下,利用Bpref和MAP进行评价的结果很一致,但是相关性判断不完全的情况下,Bpref更鲁棒。 *Buckley, C. Voorhees, E.M. Retrieval Evaluation with Incomplete Information, Proceedings of SIGIR 2004 原始定义 对每个Topic,已判定结果中有R个相关结果 r是相关文档,n是Top R篇不相关文档集合的子集 例子:R=4 d15r, d13n,d10u,d12n,d9r,d7u,d4n,d6n,d5u, d2r, d1n,d3r,d14n,… bpref=1/4*(1-0+1-2/4+1-4/4+1-4/4)=3/8 不参加计算 特定情况 当R很小(1 or 2)时,原公式不合适 r是相关文档,n是Top 10+R篇不相关文档集合的子集 最新定义 对每个Topic,已判定结果集合中有R个相关文档,N个不相关文档,则 Bpref can be thought of as the inverse of the fraction of judged irrelevant documents that are retrieved before relevant ones. Bpref and mean average precision are very highly correlated when used with complete judgments. But when judgments are incomplete, rankings of systems by bpref still correlate highly to the original ranking, whereas rankings of systems by MAP do not. *参看trec_eval工具8.0修正说明(bpref_bug文件) GMAP GMAP(Geometric MAP): TREC2004 Robust 任务引进 先看一个例子 从MAP来看,系统A好于系统B,但是从每个查询来看,3个查询中有2个Topic B比A有提高,其中一个提高的幅度达到300% GMAP 几何平均值 上面那个例子 GMAPa=0.056, GMAPb=0.086 GMAPaGMAPb GMAP和MAP各有利弊,可以配合使用,如果存在难Topic时,GMAP更能体现细微差别 现代信息检索 NDCG 每个文档不仅仅只有相关和不相关两种情况,而是有相关度级别,比如0,1,2,3。我们可以假设,对于返回结果: 相关度级别越高的结果越多越好 相关度级别越高的结果越靠前越好 *Jarvelin, K. Kekalainen, J. Cumulated Gain-based Evaluation of IR Techniques. ACM Transactions on Information Systems, 2002, 20, 422-446 现代信息检索 NDCG Directed Gain Cumulated Gain(CG) vector Discounted CG vector(blogi表示以b为底对i取对数) b=2, 现代信息检索 NDCG BV(Best Vector):假定m个3,l个2,k个1,其他都是0 现代信息检索 NDCG Normalized (D)CG 现代信息检索 NDCG 现代信息检索 NDCG 优点: 图形直观,易解释 支持非二值的相关度定义,比P-R曲线更精确 能够反映用户的行为特征(如:用户的持续性persistence) 缺点: 相关度的定义难以一致 需要参数

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档