- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture5-indexcompression 第5讲 索引压缩 现代信息检索导论 教学课件
Introduction to Information Retrieval
现代信息检索
中科院研究生院2011年秋季课程《现代信息检索》 更新时间:
Modern Information Retrieval
授课人:王斌
/~wangbin
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
第5讲 索引压缩
Index compression
2011/9/26
提纲
上一讲回顾
压缩
词项统计量
词典压缩
倒排记录表压缩
提纲
上一讲回顾
压缩
词项统计量
词典压缩
倒排记录表压缩
4
基于块的排序索引构建算法BSBI
5
内存式单遍扫描索引构建算法SPIMI
关键思想 1: 对每个块都产生一个独立的词典 – 不需要在块之间进行term-termID的映射
关键思想2: 对倒排记录表不排序,按照他们出现的先后顺序排列
基础上述思想可以对每个块生成一个完整的倒排索引
这些独立的索引最后合并一个大索引
现代信息检索
现代信息检索
6
SPIMI-Invert算法
7
基于MapReduce的索引构建
8
动态索引构建:最简单的方法
在磁盘上维护一个大的主索引(Main index)
新文档放入内存中较小的辅助索引(Auxiliary index)中
同时搜索两个索引,然后合并结果
定期将辅助索引合并到主索引中
9
本讲内容
信息检索中进行压缩的动机
倒排索引中词典部分如何压缩?
倒排索引中倒排记录表部分如何压缩?
词项统计量: 词项在整个文档集中如何分布?
提纲
上一讲回顾
压缩
词项统计量
词典压缩
倒排记录表压缩
现代信息检索
现代信息检索
什么是压缩?
将长编码串用短编码串来代替 18个1
12
为什么要压缩? (一般意义上而言)
减少磁盘空间 (节省开销)
增加内存存储内容 (加快速度)
加快从磁盘到内存的数据传输速度 (同样加快速度)
[读压缩数据到内存+在内存中解压]比直接读入未压缩数据要快很多
前提: 解压速度很快
本讲我们介绍的解压算法的速度都很快
13
为什么在IR中需要压缩?
首先,需要考虑词典的存储空间
词典压缩的主要动机: 使之能够尽量放入内存中
其次,对于倒排记录表而言
动机: 减少磁盘存储空间,减少从磁盘读入内存的时间
注意: 大型搜索引擎将相当比例的倒排记录表都放入内存
接下来,将介绍词典压缩和倒排记录表压缩的多种机制
14
有损(Lossy) vs. 无损(Lossless)压缩
有损压缩: 丢弃一些信息
前面讲到的很多常用的预处理步骤可以看成是有损压缩:
统一小写,去除停用词, Porter词干还原, 去掉数字
无损压缩: 所有信息都保留
索引压缩中通常都使用无损压缩
提纲
上一讲回顾
压缩
词项统计量
词典压缩
倒排记录表压缩
现代信息检索
现代信息检索
词典压缩和倒排记录表压缩
词典压缩中词典的大小即词汇表的大小是关键
能否预测词典的大小?
倒排记录表压缩中词项的分布情况是关键
能否对词项的分布进行估计?
引入词项统计量对上述进行估计,引出两个经验法则
17
对文档集建模: Reuters RCV1
N
L
M
T
文档数目
每篇文档的词条数目
词项数目(= 词类数目)
每个词条的字节数 (含空格和标点)
每个词条的字节数 (不含空格和标点)
每个词项的字节数
无位置信息索引中的倒排记录数目
800,000
200
400,000
6
4.5
7.5
100,000,000
18
预处理的效果
19
第一个问题:词汇表有多大(即词项数目)?
即有多少不同的单词数目?
首先,能否假设这个数目存在一个上界?
不能:对于长度为20的单词,有大约7020 ≈ 1037 种可能的单词
实际上,词汇表大小会随着文档集的大小增长而增长!
Heaps定律: M = kTb
M 是词汇表大小, T 是文档集的大小(所有词条的个数,即所有文档大小之和)
参数k 和b 的一个经典取值是: 30 ≤ k ≤ 100 及 b ≈ 0.5.
Heaps定律在对数空间下是线性的
这也是在对数空间下两者之间最简单的关系
经验规律
现代信息检索
现代信息检索
Reuters RCV1上的Heaps定律
词汇表大小M 是文档集规模T的一个函数
图中通过最小二乘法拟合出的直线方程为:
您可能关注的文档
- GTS-网格菜单使用说明 midas 教学文件.pdf
- handout for lecture 3-4 系统功能语言学概论课件.doc
- Happy Hew Year 放假须知课件.ppt
- hapter 7 brakes 汽车服务工程专业英语 教学课件.ppt
- guide to the use of scores GRE考试指导.pdf
- Hazardous Cattle Crossings- Use of Flashing Amber Lamps 《道路勘测设计》英文资料.pdf
- HEIDENHAIN 光栅尺故障维修.doc
- HDMI检验方法 家庭网络系统和防拷贝控制技术.ppt
- Hemingway 英语专业教学课件.ppt
- Herman Melville 英语专业教学课件.ppt
最近下载
- 2023-2024学年浙江省杭州市八区县小升初数学试卷(解析版).docx
- TCECS 1240-2023 弃土场工程技术规程.docx VIP
- 《中国建筑的特征》课件(共47张PPT)统编版高中语文必修下册.pdf VIP
- 2025年全国航空航天模型锦标赛竞赛规则.pdf VIP
- 最后一片叶子英文剧本.docx
- 地下铁道施工技术课件:基坑的围护结构-排桩.ppt VIP
- 高中地理选择性必修2全册各章节课时练习题及章末综合测验 含解析.pdf VIP
- 小时工劳务合同范本(2024版).docx
- 湖北工业大学2023-2024学年第2学期《高等数学(下)》期末试卷(A卷)附标准答案.pdf
- 河道开挖工程施工组织设计(184页).docx VIP
文档评论(0)