lecture6-tfidf (一) 第6讲 文档评分、词项权重计算及向量空间模型 现代信息检索导论 幻灯片课件.pptVIP

lecture6-tfidf (一) 第6讲 文档评分、词项权重计算及向量空间模型 现代信息检索导论 幻灯片课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lecture6-tfidf (一) 第6讲 文档评分、词项权重计算及向量空间模型 现代信息检索导论 幻灯片课件.ppt

Introduction to Information Retrieval 现代信息检索 中科院研究生院2011年秋季课程《现代信息检索》 更新时间: Modern Information Retrieval 授课人:王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 第6讲 文档评分、词项权重计算及向量空间模型 Scoring, Term Weighting Vector Space Model 2011/10/09 提纲 上一讲回顾 排序式检索 词项频率词项频率 tf-idf权重计算 向量空间模型 提纲 上一讲回顾 排序式检索 词项频率词项频率 tf-idf权重计算 向量空间模型 现代信息检索 Heaps定律 词汇表大小M 是文档集规模T的一个函数 图中通过最小二乘法拟合出的直线方程为: log10M = 0.49 ∗ log10T + 1.64 于是有: M = 101.64T0.49 k = 101.64 ≈ 44 b = 0.49 5 Zipf定律 反映词项的分布 拟合度不是太高,但是今本反映词项的分布规律:高频词少,低频词多。 8 对间隔编码 9 可变字节(VB)码 被很多商用/研究系统所采用 变长编码及对齐敏感性(指匹配时按字节对齐还是按照位对齐)的简单且不错的混合产物 设定一个专用位 (高位) c作为延续位(continuation bit) 如果间隔表示少于7比特,那么c 置 1,将间隔编入一个字节的后7位中 否则:将低7位放入当前字节中,并将c 置 0,剩下的位数采用同样的方法进行处理,最后一个字节的c置1(表示结束) 10 ϒ编码 将G 表示成长度(length)和偏移(offset)两部分 偏移对应G的二进制编码,只不过将首部的1去掉 例如 13 → 1101 → 101 = 偏移 长度部分给出的是偏移的位数 比如G=13 (偏移为 101), 长度部分为 3 长度部分采用一元编码: 1110. 于是G的ϒ编码就是将长度部分和偏移部分两者联接起来得到的结果。 11 Reuters RCV1索引压缩总表 12 本讲内容 对搜索结果排序(Ranking) : 为什么排序相当重要? 词项频率(Term Frequency, TF): 排序中的重要因子 Tf-idf 权重计算方法: 最出名的经典排序方法 向量空间模型(Vector space model): 信息检索中最重要的形式化模型之一 (其他模型还包括布尔模型和概率模型) 提纲 上一讲回顾 排序式检索 词项频率 tf-idf权重计算 向量空间模型 14 排序式检索(Ranked retrieval) 迄今为止,我们主要关注的是布尔查询 文档要么匹配要么不匹配 对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索更是如此 15 布尔搜索的不足: 结果过少或者过多 布尔查询常常会倒是过少(=0)或者过多(1000)的结果 查询 1 (布尔与操作): [standard user dlink 650] → 200,000 个结果 – 太多 查询2 (布尔与操作): [standard user dlink 650 no card found] → 0 个结果 – 太少 在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询 16 排序式检索 排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多 前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前 17 排序式检索中的评分技术 我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档 如何实现? 通常做法是对每个查询-文档对赋一个[0, 1]之间的分值 该分值度量了文档和查询的匹配程度 18 查询-文档匹配评分计算 如何计算查询-文档的匹配得分? 先从单词项查询开始 若该词项不出现在文档当中,该文档得分应该为0 该词项在文档

文档评论(0)

youngyu0329 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档