lecture5-indexcompression 第5讲索引压缩现代信息检索导论　教学课件.ppt

下载文档 降价啦

71
0
约6.61千字
约 60页
2018-01-28 发布于浙江
举报
版权申诉
保障服务

lecture5-indexcompression 第5讲索引压缩现代信息检索导论　教学课件.ppt

1、本文档共60页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

lecture5-indexcompression 第5讲索引压缩现代信息检索导论　教学课件

Introduction to Information Retrieval 现代信息检索中科院研究生院2011年秋季课程《现代信息检索》更新时间： Modern Information Retrieval 授课人：王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件，地址 /IR-book/ 第5讲索引压缩 Index compression 2011/9/26 提纲上一讲回顾压缩词项统计量词典压缩倒排记录表压缩提纲上一讲回顾压缩词项统计量词典压缩倒排记录表压缩 4 基于块的排序索引构建算法BSBI 5 内存式单遍扫描索引构建算法SPIMI 关键思想 1: 对每个块都产生一个独立的词典 – 　不需要在块之间进行term-termID的映射关键思想2: 对倒排记录表不排序，按照他们出现的先后顺序排列基础上述思想可以对每个块生成一个完整的倒排索引这些独立的索引最后合并一个大索引现代信息检索现代信息检索 6 SPIMI-Invert算法 7 基于MapReduce的索引构建 8 动态索引构建：最简单的方法在磁盘上维护一个大的主索引(Main index) 新文档放入内存中较小的辅助索引（Auxiliary index）中同时搜索两个索引，然后合并结果定期将辅助索引合并到主索引中 9 本讲内容信息检索中进行压缩的动机倒排索引中词典部分如何压缩？倒排索引中倒排记录表部分如何压缩？词项统计量: 词项在整个文档集中如何分布？提纲上一讲回顾压缩词项统计量词典压缩倒排记录表压缩现代信息检索现代信息检索什么是压缩？将长编码串用短编码串来代替 18个1 12 为什么要压缩? (一般意义上而言) 减少磁盘空间 (节省开销) 增加内存存储内容 (加快速度) 加快从磁盘到内存的数据传输速度 (同样加快速度) [读压缩数据到内存+在内存中解压]比直接读入未压缩数据要快很多前提: 解压速度很快本讲我们介绍的解压算法的速度都很快 13 为什么在IR中需要压缩? 首先，需要考虑词典的存储空间词典压缩的主要动机: 使之能够尽量放入内存中其次，对于倒排记录表而言动机: 减少磁盘存储空间，减少从磁盘读入内存的时间注意: 大型搜索引擎将相当比例的倒排记录表都放入内存接下来，将介绍词典压缩和倒排记录表压缩的多种机制 14 有损(Lossy) vs. 无损(Lossless)压缩有损压缩: 丢弃一些信息前面讲到的很多常用的预处理步骤可以看成是有损压缩: 统一小写,去除停用词, Porter词干还原, 去掉数字无损压缩: 所有信息都保留索引压缩中通常都使用无损压缩提纲上一讲回顾压缩词项统计量词典压缩倒排记录表压缩现代信息检索现代信息检索词典压缩和倒排记录表压缩词典压缩中词典的大小即词汇表的大小是关键能否预测词典的大小？倒排记录表压缩中词项的分布情况是关键能否对词项的分布进行估计？引入词项统计量对上述进行估计，引出两个经验法则 17 对文档集建模： Reuters RCV1 N L M T 文档数目每篇文档的词条数目词项数目(= 词类数目) 每个词条的字节数 (含空格和标点) 每个词条的字节数 (不含空格和标点) 每个词项的字节数无位置信息索引中的倒排记录数目 800,000 200 400,000 6 4.5 7.5 100,000,000 18 预处理的效果 19 第一个问题：词汇表有多大(即词项数目)? 即有多少不同的单词数目? 首先，能否假设这个数目存在一个上界？不能：对于长度为20的单词，有大约7020 ≈ 1037 种可能的单词实际上，词汇表大小会随着文档集的大小增长而增长！ Heaps定律: M = kTb M 是词汇表大小, T 是文档集的大小(所有词条的个数，即所有文档大小之和) 参数k 和b 的一个经典取值是: 30 ≤ k ≤ 100 及 b ≈ 0.5. Heaps定律在对数空间下是线性的这也是在对数空间下两者之间最简单的关系经验规律现代信息检索现代信息检索 Reuters RCV1上的Heaps定律词汇表大小M 是文档集规模T的一个函数图中通过最小二乘法拟合出的直线方程为：

您可能关注的文档

文档评论（0）

qiwqpu54 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

lecture5-indexcompression 第5讲索引压缩现代信息检索导论　教学课件.ppt