海量信息处理--索引.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Q A ??? * 部分参考文献 [1] Ian H.Witten, Alistair Moffat, Timothy C.Bell. 深入搜索引擎—海量信息的压缩、索引和查询[M]. 电子工业出版社, 2009. [2] 李晓明. 搜索引擎: 原理、技术与系统[M]. 科学出版社, 2004. [3] 刘挺, 秦兵, 张宇, 车万翔. 信息检索系统导论[M]. 机械工业出版社, 2008. [4] Bruce Croft, Donald metzler, Trevor Strohman. Search Engines: Information Retrieval in Practice[M]. 机械工业出版社, 2009. * 海量信息处理—索引 彭卫华 2009.11.23 * ICRC学术讲座第2期 内容 一、索引介绍 二、索引构造 三、Q A 四、部分参考文献 * 索引介绍 1. 为什么使用索引 2. 索引什么 3. 索引机制 4. 索引压缩 * 为什么使用索引 什么是索引? 索引是一种找出给定术语在文本中位置的机制。 使用原因? 信息如何组织才能方便高效地查询 数据相关部分如何才能快速地抽取 ???若文档是图片—被索引的词汇可能是图片的若干描述词 * 索引什么 使用文档中出现的每个单词? 利: 有利于扩大术语集合的词汇量(出现的不重复术语的数量) 增加了索引中文档识别符的数量 弊: 影响系统的存储空间 分解查询请求时,更多潜在的查询术语将会被分解出来,恶化了查询结果 * 索引什么(cont.) (针对英文) 1. 大小写折叠(case folding) ACT ? act act ? act 问题? * 索引什么(cont.) (针对英文) 2. 词根化(stemming) compression ? compress compressed ? compress 问题? * 索引什么(cont.) 3. 去除停用词(stop word) 问题? 同形异义 * 索引机制 1. 倒排文件(inverted file) 2. 签名文件(signature file) 3. 位图(bitmap) * 倒排文件 倒排索引包含字典中的每个术语 倒排列表(也叫记录列表,posting list)中存储了一列指针(也叫“记录”, posting),每个指针都表示了术语在文本中的全部出现 对于每个指针来说,它存放的值其实就是术语出现的文档号 * 倒排文件(cont.) 索引粒度:表示标识术语精确度的一个概念 粗粒度索引:标识一个文本组(block of text) 中等粒度索引:存储文档号的位置 细粒度索引:标识句子或者单词的序号 * 倒排文件(cont.) 一般选择文档粒度,式样: term, num_of_doc; docid1,docid2,… 使用粗粒度索引,在多术语查询的场合下更可能造成错配; 另一个极端,单词级索引增加存储空间。 单词级索引式样: term,num_of_doc;(docid1;pos_of_word1,pos_of_word2,…),… * 签名文件 签名文件是一种面向索引文本的概率方法。每个文档都有一个关联签名(associated signature),或称为描述符(descriptor)。 为了创建文档的描述符,首先每个文档中的术语都需要被用来生成多个哈希值,然后将术语哈希值置1的比特位也为相应的文档签名的比特位置1即可。 * 签名文件(cont.) 检测一个查询术语是否在给定的文档中出现,需要计算该术语的各个哈希值。如果所对应的比特位在某个文档描述符中置位,则该术语可能出现在这个文档中。 弊端:错配检查! 签名文件索引只能排除文档,永远不能确定地选出文档。 * 位图 位图是十分简单的索引结构,字典中的每个术语都需要存储成比特向量的形式,每比特位对应一个文档。 位图不仅快,而且易于使用,但是极其耗费存储空间。(从TREC数据库看,一个位图索引比索引的文本本身还要大20倍) * 索引压缩 主要针对倒排文件索引 * 索引构造 1. 什么是索引构造 2. 索引构造方法 3. 动态文档集合 * 什么是索引构造 (针对倒排文件索引) 索引构造的过程即通常所说的文本倒排(inversion)。 一种显而见的创建倒排索引的方法是在内存中创建一个转置的频率矩阵。 * 索引构造方法 链接列表(基于内存) 链接列表(基于磁盘) 基于排序 基于排序且压缩 基于排序且多路归并 基于排

文档评论(0)

189****6649 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档