- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
谢谢观赏 * 第五章索引压缩 2014-4-2 * 章节框架 词项统计特性 1.Heaps定律 2.Zipf定律 词典压缩 1.长字符串和词项指针 2.按块存储 3.前端编码 倒排记录表压缩 1.可变字节编码 2.γ编码 * 索引压缩的对象 IR中两个主要的数据结构: * 索引压缩的意义 1.节省磁盘空间 ——目标:达到1:4的压缩比例 2.增加高速缓存技术的利用率 ——目标:把常用的条目放入内存存储,减少系统应答时间 3.加快数据从磁盘到内存的传输速度 ——目标:结合高效的解压缩算法提高系统运行速度 本章介绍的解压算法都很高效,可以达到以上目标 索引压缩通常是无损压缩,有损压缩技术在预处理阶段介绍(2.2) * 本章所用语料库 存储所有的(词项ID,文档ID)对需要1.28GB 初步处理后的文档集大小为960MB 未压缩的文档集词典存储空间为11.2MB 未压缩的倒排记录表大小为250MB * 初步处理后的语料库 * Heaps定律——词项数目的估计 词项数目的估计:Heaps定律 M = kTb M 是词汇表大小, T 是文档集的大小(文档集合中所有词条的个数,即所有文档大小之和) 参数k 和b 的一个经典取值是: 30 ≤ k ≤ 100 及 b ≈ 0.5. Heaps定律通过文档集合中的词条数来估计词汇表大小,词汇表大小会随着文档集的大小增长而增长! Heaps定律结论: 随着文档数目的增加,词汇量会持续增长而不会稳定到一个最大值。 大规模文档集的词汇量也会非常大。 * Zipf定律——对词项的分布建模 在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。 词项分布的估计:Zipf定律?? cfi ∝ (1/i) 如果出现最多的词项的出现次数是 cf1的话,出现第二多的词项的出现次数就是 cf1的一半,出现第三多的词项出现次数会是 cf1的 1/3,其余均可依此类推。 注:cfi 是文档频率(collection frequency): 词项ti在所有文档中出现的次数(不是出现该词项的文档数目df) * 词典压缩 词典压缩的目的:将词典放入内存 传统的词典存储方式:定长数组 M*(20+4+4)=400000*28=11.2MB 大量存储空间被浪费,即使是长度为1的词项,我们也分配20个字节; 不能处理长度大于20字节的词项; 而英语中每个词项的平均长度为8个字符; 能否对每个词项平均只使用8个字节来存储? * 将词典看成单一字符串 M*(平均长度+文档频率+倒排记录表指针+词项指针) =400000*(8+4+4+3)=7.6MB * 按块存储 M*(平均长度+文档频率+倒排记录表指针+长度标记+词项指针/k) =400000*(8+4+4+1+3/4)=7.1MB K越大,压缩率越高,但是会牺牲查找速度。 每k个词项为一组,每组保留一个词项指针,每词项前用一个字节标记长度。 * 平均时间= 查询所需步数/结点个数 当所取的k趋于最大,以把词典压缩到最小值: 400000*(4+4+1+8)=6.8MB 此时词典的查找速度会变得非常慢 K的选取必须在压缩和词项查找速度之间保持某种平衡 * 按块存储+前端编码 M*(平均长度+文档频率+倒排记录表指针+长度+前缀+词项指针/k) =400000*(4+4+4+1+1+3/4)=5.9MB * 词典压缩总结 * 倒排记录表压缩 倒排记录表空间远大于词典,至少10倍以上 压缩关键:对每条倒排记录进行压缩 目前每条倒排记录表中存放的是docID. 对于Reuters RCV1(800,000篇文档), 当每个docID可以采用4字节(即32位)整数来表示 目标: 压缩后每个docID用到的位数远小于20比特 改进要点:采用变长编码方法对间距进行编码。 1.按字节压缩——可变字节编码 2.按位压缩——γ编码 * 可变字节编码Variable Byte coding 设定一个专用位 (高位) c作为延续位(continuation bit)。 如果间隔表示少于7位,那么c =1,将间隔编入一个字节的后7位中; 否则,将低7位放入当前字节中,并将c 置 0,剩下的位数采用同样的方法进行处理,最后一个字节的c置1(表示结束)。 * VB编码算法 * VB解码算法 通过VB编码压缩,可以使语料库索引压缩到116MB,压缩率超过50%。 编码单位的长短和压缩率成反比,和所需的位操作次数成正比。 以字节为单位的压缩率和解压速度之间提供了一个很好的平衡点。 * γ编码Elias Gamma coding 一元编码:n的一元编码是在n个1后面加1个0. 编码:分别用长度length和偏移offse
您可能关注的文档
- 自动拨号机控制器论文1.doc
- 验证动量守恒定律1.ppt
- 防雷器的型号及规格.doc
- 高三英语-并列句.ppt
- 起动机实训报告.doc
- 色差分量接口.doc
- 螺钉式接线端子.doc
- 蒸发空冷设计软件介绍.doc
- 非惯性系动力学.ppt
- 鉴别、鉴定、除杂类题目解决方法.ppt
- 浙江大学《传统人居文化研究》2023-2024学年第一学期期末试卷.doc
- 绍兴市嵊州市2025年数学五下期末联考模拟试题含答案.doc
- 沈阳城市学院《给排水工程制图与CAD》2023-2024学年第二学期期末试卷.doc
- 东北师范大学《柳琴戏艺术概论》2023-2024学年第一学期期末试卷.doc
- 上海市松江区2025年高三下学期第一次统一考试生物试题理试题含解析.doc
- 山东省青岛市市南区2025届小升初数学综合练习卷含解析.doc
- 2025年山东省六地市部分学校高三下-期末考试生物试题试卷含解析.doc
- 青海交通职业技术学院《数据分析软件》2023-2024学年第一学期期末试卷.doc
- 黔东南南苗族侗族自治州天柱县2025届四下数学期末达标检测试题含解析.doc
- 股指到底怎么玩.pdf
文档评论(0)