信息检索与数据挖掘20154131.PDF

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索与数据挖掘20154131.PDF

信息检索与数据挖掘 2015/4/13 1 信息检索与数据挖掘 第7章 相关反馈和查询扩展 信息检索与数据挖掘 2015/4/13 2 课程内容 ? 第1章 绪论 ? 第2章 布尔检索及倒排索引 ? 第3章 词典查找及扩展的倒排索引 ? 第4章 索引构建和索引压缩 ? 第5章 向量模型及检索系统 ?第6章 检索的评价 ? 第7章 相关反馈和查询扩展 ? 第8章 概率模型 ? 第9章 基于语言建模的检索模型 ? 第10章 文本分类 ? 第11章 文本聚类 ? 第12章 Web搜索 ? 第13章 多媒体信息检索 ? 第14章 其他应用简介 信息检索与数据挖掘 2015/4/13 3 提纲 ? 上一讲回顾 ? 动机 ? 相关反馈基础 ? 相关反馈详细介绍 ? 查询扩展 信息检索与数据挖掘 2015/4/13 4 提纲 ? 上一讲回顾 ? 动机 ? 相关反馈基础 ? 相关反馈详细介绍 ? 查询扩展 信息检索与数据挖掘 2015/4/13 5 上一讲回顾 ? 信息检索的评价方法 ? 不考虑序的评价方法(即基于集合):P、R、F ? 考虑序的评价方法:P/R曲线、MAP、NDCG ? 相关评测 ? 检索结果的摘要 信息检索与数据挖掘 2015/4/13 6 正确率(Precision)和召回率(Recall) .正确率(Precision ,简写为P) 是返回文档中真正相关的 比率 .召回率(Recall,R) 是返回结果中的相关文档占所有相关 文档(包含返回的相关文档和未返回的相关文档)的比率 信息检索与数据挖掘 2015/4/13 7 正确率 vs. 召回率 P = TP / ( TP + FP ) R = TP / ( TP + FN ) 信息检索与数据挖掘 2015/4/13 8 正确率和召回率相结合的指标:F值 .F 允许正确率和召回率的折中 where . α ? [0, 1] , b 2 ? [0,∞] .常用参数: balanced F , b = 1 or α = 0.5 .实际上是正确率和召回率的调和平均数(harmonic mean) 信息检索与数据挖掘 2015/4/13 9 正确率-召回率曲线 .每个点对应top k上的结果 (k = 1, 2, 3, 4, . . .). .插值 (红色): 将来所有点上的最高结果 .插值的原理:如果正确率和召回率都升高,那么用户可能 愿意浏览更多的结果 信息检索与数据挖掘 2015/4/13 10 平均的 11-点正确率/召回率曲线 .计算每个召回率点(0.0, 0.1, 0.2, . . .)上的插值正确率 .对每个查询都计算一遍 .在查询上求平均 .该曲线也是TREC评测上常用的指标之一 信息检索与数据挖掘 2015/4/13 11 MAP ?平均正确率(Average Precision, AP):对 不同召回率点上的正确率进行平均 ?未插值的AP: 某个查询Q共有6个相关结果,某 系统排序返回了5篇相关文档,其位置分别是第 1,第2,第5,第10,第20位,则 AP=(1/1+2/2+3/5+4/10+5/20+0)/6 ?多个查询的AP的平均值称为系统的 MAP(Mean AP

文档评论(0)

thl1006 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档