-索引和搜索Indexing and Searching.ppt

下载文档

2
0
约1.05万字
约 54页
2015-08-07 发布于甘肃
举报
版权申诉
保障服务

-索引和搜索Indexing and Searching.ppt

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

各种编码方式（一) 一元编码（Unary Code）一个数n由n-1个1跟着一个0组成以n=9为例，111111110 n占用的空间为 n bit γ(Gamma) Code 联合unary编码和二进制编码binary codes unary 编码存储用二进制编码表达n所用的位数，二进制编码存储用于恢复n的信息 unary 编码占用存储空间为 1 + |_log n_|，binary 占用存储空间为|_log n_|，存储的数为 n - 2 |_log n_| 以n=9为例，|_log 9_| = 3, so unary code is 1110，9-8=1, so binary code is 001，其编码为 1110 001 (7 bits) n占用的空间为 1 + 2 * |_log n_| 各种编码方式（二） δ(delta) Code 用γ编码编码 γ编码的长度部分以n=9为例，其γ编码的长度为4，4的γ编码为 11000，故9的δCode为 11000 001 n占用的空间为 Golomb 编码前 q+1 用 unary编码, q=|_(x-1)/b_| 余数 r=x-q*b-1 用二进制编码，需要或位，如果 r2 |_logb_|-1，在二进制编码中需要位，否则需要位，其中第一个位为1。若b=3，则r=0 (0)、 r=1 (10)、 r=2 (11) b取3，以n=9为例，q=|_(9-1)/3_|=2，故其unary编码为 110， r=9-2*3-1=2，故其二进制编码为 11，故9的Golomb编码为11011 7. 索引和搜索Indexing and Searching 倒排文件构建Inverted Files Construction 搜索Searching 索引大小在第一讲我们初步研究了索引空间同时也考虑了 stemming, case folding, stop words ... 提取词根等操作对于索引大小的影响如何？索引大小词根化和小写归一化处理能够降低词的数量降低 ~40% 指针的数量降低10-20% 总空间大小降低 ~30% 停用词 Rule of 30：大约30个最常见的词占了书面文字中所有词的30% 从索引里消除150个最常见的词能够降低大约25%的索引空间包含位置信息的索引大小需要每个出现位置有一个条目, 不是一个文档一个条目索引的大小取决于平均文档大小 Average web page has 1000 terms filings, books, even some epic poems … easily 100,000 terms 考虑一个出现频率为 0.1%的词(所需条目空间如下表所示) 经验性的规律包含位置信息的索引positional index大小大概是只包含出现情况的索引non-positional index的 2-4倍包含位置信息的索引平positional index大小大概是原始文本的35-50% 一些商用软件也称此比率为膨胀率，并用它作为衡量搜索引擎效率的一个重要指标以上这些数据主要是对英文类似的语言有效索引构建索引的空间索引建立的时间有限内存情况下采用怎样的策略建立和维护索引? 对于比较大的语料库 Number of docs = n = 40M Number of terms = m = 1M 用齐普夫率 Zipf 来估量记录条目的数量 n + n/2 + n/3 + …. + n/m ~ n ln m = 560M entries 在不包含位置信息的情况下, 每个条目10-12 bytes （term, doc, freq）关键步骤文档解析后倒排文件按关键词排序回忆索引构建的过程文档解析后各个词以及词出现的文档都被解析出来倒排文档实例 (MIR Ch.8, Fig. 8.1) 倒排文档（块寻址）实例 (MIR Ch.8, Fig. 8.2) 索引构建解析文档构建索引的时候一般不进行压缩由于文档逐个解析，倒排文件每个词的记录条目postings entry只有在所有文档解析完后才能确定 (actually you can exploit compression, but this becomes a lot more complex) 10-12 bytes 每记录条目postings entry, 通常需要数gigabytes的存储空间系统参数设定磁盘寻道时间Disk seek ~ 10-3 second 磁盘数据块传递时间Block transfer from disk ~