- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
-索引和搜索Indexing and Searching.ppt
各种编码方式(一) 一元编码(Unary Code) 一个数n由n-1个1跟着一个0组成 以n=9为例,111111110 n占用的空间为 n bit γ(Gamma) Code 联合unary编码和二进制编码binary codes unary 编码 存储 用二进制编码表达n所用的位数,二进制编码 存储 用于恢复n的信息 unary 编码占用存储空间为 1 + |_log n_|,binary 占用存储空间为|_log n_|,存储的数为 n - 2 |_log n_| 以n=9为例,|_log 9_| = 3, so unary code is 1110,9-8=1, so binary code is 001,其编码为 1110 001 (7 bits) n占用的空间为 1 + 2 * |_log n_| 各种编码方式(二) δ(delta) Code 用γ编码 编码 γ编码的长度部分 以n=9为例,其γ编码的长度为4,4的γ编码为 11000,故9的δCode为 11000 001 n占用的空间为 Golomb 编码 前 q+1 用 unary编码, q=|_(x-1)/b_| 余数 r=x-q*b-1 用二进制编码,需要 或 位,如果 r2 |_logb_|-1,在二进制编码中需要 位,否则需要 位,其中第一个位为1。若b=3,则r=0 (0)、 r=1 (10)、 r=2 (11) b取3,以n=9为例,q=|_(9-1)/3_|=2,故其unary编码为 110, r=9-2*3-1=2,故其二进制编码为 11,故9的Golomb编码为11011 7. 索引和搜索Indexing and Searching 倒排文件构建Inverted Files Construction 搜索Searching 索引大小 在第一讲我们初步研究了索引空间 同时也考虑了 stemming, case folding, stop words ... 提取词根等操作对于索引大小的影响如何? 索引大小 词根化和小写归一化处理能够降低 词的数量降低 ~40% 指针的数量降低10-20% 总空间大小降低 ~30% 停用词 Rule of 30:大约30个最常见的词占了书面文字中所有词的30% 从索引里消除150个最常见的词能够降低大约25%的索引空间 包含位置信息的索引大小 需要每个出现位置有一个条目, 不是一个文档一个条目 索引的大小取决于平均文档大小 Average web page has 1000 terms filings, books, even some epic poems … easily 100,000 terms 考虑一个出现频率为 0.1%的词(所需条目空间如下表所示) 经验性的规律 包含位置信息的索引positional index大小大概是只包含出现情况的索引non-positional index的 2-4倍 包含位置信息的索引平positional index大小大概是原始文本的35-50% 一些商用软件也称此比率为膨胀率,并用它作为衡量搜索引擎效率的一个重要指标 以上这些数据主要是对英文类似的语言有效 索引构建 索引的空间 索引建立的时间 有限内存情况下采用怎样的策略建立和维护索引? 对于比较大的语料库 Number of docs = n = 40M Number of terms = m = 1M 用齐普夫率 Zipf 来估量记录条目的数量 n + n/2 + n/3 + …. + n/m ~ n ln m = 560M entries 在不包含位置信息的情况下, 每个条目10-12 bytes (term, doc, freq) 关键步骤 文档解析后倒排文件按关键词排序 回忆索引构建的过程 文档解析后各个词以及词出现的文档都被解析出来 倒排文档实例 (MIR Ch.8, Fig. 8.1) 倒排文档(块寻址)实例 (MIR Ch.8, Fig. 8.2) 索引构建 解析文档构建索引的时候一般不进行压缩 由于文档逐个解析,倒排文件每个词的记录条目postings entry只有在所有文档解析完后才能确定 (actually you can exploit compression, but this becomes a lot more complex) 10-12 bytes 每记录条目postings entry, 通常需要数gigabytes的存储空间 系统参数设定 磁盘寻道时间Disk seek ~ 10-3 second 磁盘数据块传递时间Block transfer from disk ~
您可能关注的文档
最近下载
- 2025年中国智能炒菜机(炒菜机器人)行业市场全景分析及投资规划建议报告.docx
- 2024年上海高中生物学业水平考试真题及答案.docx VIP
- 肥胖和代谢病外科课件.pptx VIP
- 2025年小学四年级下册数学《期末测试卷》及答案【各地真题】 .pdf VIP
- 一例肾恶性肿瘤患者护理查房.pptx VIP
- 华熙生物-投资价值分析报告:多元化,透明质酸龙头_完整下载版.pdf VIP
- 国开-儿童发展问题的咨询与辅导-案例1-5-学习资料.docx VIP
- 华熙生物-深度调研和分析报告-透明质酸原料,全产业链布局20191202.pdf VIP
- 用人单位劳动合同模板.doc VIP
- 华熙生物-投资价值分析报告:全球最大透明质酸生产商的产业链延伸.pdf VIP
文档评论(0)