网站大量收购独家精品文档,联系QQ:2885784924

lecture5-indexcompression 第5讲 索引压缩 现代信息检索导论 教学课件.ppt

lecture5-indexcompression 第5讲 索引压缩 现代信息检索导论 教学课件.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture5-indexcompression 第5讲 索引压缩 现代信息检索导论 教学课件

Introduction to Information Retrieval 现代信息检索 中科院研究生院2011年秋季课程《现代信息检索》 更新时间: Modern Information Retrieval 授课人:王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 第5讲 索引压缩 Index compression 2011/9/26 提纲 上一讲回顾 压缩 词项统计量 词典压缩 倒排记录表压缩 提纲 上一讲回顾 压缩 词项统计量 词典压缩 倒排记录表压缩 4 基于块的排序索引构建算法BSBI 5 内存式单遍扫描索引构建算法SPIMI 关键思想 1: 对每个块都产生一个独立的词典 –  不需要在块之间进行term-termID的映射 关键思想2: 对倒排记录表不排序,按照他们出现的先后顺序排列 基础上述思想可以对每个块生成一个完整的倒排索引 这些独立的索引最后合并一个大索引 现代信息检索 现代信息检索 6 SPIMI-Invert算法 7 基于MapReduce的索引构建 8 动态索引构建:最简单的方法 在磁盘上维护一个大的主索引(Main index) 新文档放入内存中较小的辅助索引(Auxiliary index)中 同时搜索两个索引,然后合并结果 定期将辅助索引合并到主索引中 9 本讲内容 信息检索中进行压缩的动机 倒排索引中词典部分如何压缩? 倒排索引中倒排记录表部分如何压缩? 词项统计量: 词项在整个文档集中如何分布? 提纲 上一讲回顾 压缩 词项统计量 词典压缩 倒排记录表压缩 现代信息检索 现代信息检索 什么是压缩? 将长编码串用短编码串来代替 18个1 12 为什么要压缩? (一般意义上而言) 减少磁盘空间 (节省开销) 增加内存存储内容 (加快速度) 加快从磁盘到内存的数据传输速度 (同样加快速度) [读压缩数据到内存+在内存中解压]比直接读入未压缩数据要快很多 前提: 解压速度很快 本讲我们介绍的解压算法的速度都很快 13 为什么在IR中需要压缩? 首先,需要考虑词典的存储空间 词典压缩的主要动机: 使之能够尽量放入内存中 其次,对于倒排记录表而言 动机: 减少磁盘存储空间,减少从磁盘读入内存的时间 注意: 大型搜索引擎将相当比例的倒排记录表都放入内存 接下来,将介绍词典压缩和倒排记录表压缩的多种机制 14 有损(Lossy) vs. 无损(Lossless)压缩 有损压缩: 丢弃一些信息 前面讲到的很多常用的预处理步骤可以看成是有损压缩: 统一小写,去除停用词, Porter词干还原, 去掉数字 无损压缩: 所有信息都保留 索引压缩中通常都使用无损压缩 提纲 上一讲回顾 压缩 词项统计量 词典压缩 倒排记录表压缩 现代信息检索 现代信息检索 词典压缩和倒排记录表压缩 词典压缩中词典的大小即词汇表的大小是关键 能否预测词典的大小? 倒排记录表压缩中词项的分布情况是关键 能否对词项的分布进行估计? 引入词项统计量对上述进行估计,引出两个经验法则 17 对文档集建模: Reuters RCV1 N L M T 文档数目 每篇文档的词条数目 词项数目(= 词类数目) 每个词条的字节数 (含空格和标点) 每个词条的字节数 (不含空格和标点) 每个词项的字节数 无位置信息索引中的倒排记录数目 800,000 200 400,000 6 4.5 7.5 100,000,000 18 预处理的效果 19 第一个问题:词汇表有多大(即词项数目)? 即有多少不同的单词数目? 首先,能否假设这个数目存在一个上界? 不能:对于长度为20的单词,有大约7020 ≈ 1037 种可能的单词 实际上,词汇表大小会随着文档集的大小增长而增长! Heaps定律: M = kTb M 是词汇表大小, T 是文档集的大小(所有词条的个数,即所有文档大小之和) 参数k 和b 的一个经典取值是: 30 ≤ k ≤ 100 及 b ≈ 0.5. Heaps定律在对数空间下是线性的 这也是在对数空间下两者之间最简单的关系 经验规律 现代信息检索 现代信息检索 Reuters RCV1上的Heaps定律 词汇表大小M 是文档集规模T的一个函数 图中通过最小二乘法拟合出的直线方程为:

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档