信息组织与索 第七章 索引和搜索.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * 7.4 签名文件 一、签名索引机制 使用哈希函数,将词映射为掩码(签名) 把文本划分为若干块,每块有b个词。 每个文本块的大小是b,并赋予B位的掩码。 掩码是通过对文本块中的所有词的签名进行比特OR操作获得的。 签名文件 所有文本数据块的位掩码序列,包括每个块的指针 * * 7.4 签名文件 签名文件的主要思想是 如果某个词出现在一个文本块内,则签名文件中的所有比特位也会在这个文本块的位掩码之中。 如果查询词的掩码中的一个比特不在文本块的掩码中,那么可以说这个词就不会出现在文本块中 * * 7.4 签名文件 例子 块3里有crowded和people两个需要被索引的词 其掩码位分别是001100和100100 对这两个掩码进行OR操作 则块3的掩码就是101100 * * 7.4 签名文件 * * 7.4 签名文件 二、利用签名文件进行搜索 执行哈希变换,将这个词转换为位掩码W 与文本中的每个块的位掩码Bi进行比较,即执行W AND Bi操作; 若其结果为W,则说明在这个文本块中可能存在多个要求的查询词; 对于所有侯选的文本块,执行在线的遍历,以检验查询词是否真实地存在其中 * * 7.4 签名文件 例子 查找wear这个词,其掩码位为000101。 对五个块的掩码进行比较,只有在第四个块中能满足 100101 AND 000101 = 000101 则说明在第四个文本块中至少存在一个wear。 然后,顺序搜索该文本块,最终确定wear的存在及其位置 * * 7.5 顺序搜索和模板匹配 一、顺序搜索 当不在文本上建立任何数据结构时,对文本进行查找 常用算法 布鲁特-福斯(Brute Force)算法 克鲁什-莫里斯-普拉特(Knuth-Morris-Pratt)算法 博叶-摩尔(Boyer-Moore)算法 * * 7.5 顺序查找和模板匹配 二、模式匹配与顺序搜索 顺序搜索 顺序搜索是指不利用索引对文本进行搜索,通过精确的串匹配,得到要求查找的项。 即在文本T中找到模式P出现的所有位置。 这实际上是一种简单形式的模式匹配。 * * 7.5 顺序查找和模板匹配 二、模式匹配与顺序搜索 模式匹配 模式匹配还包括复杂形式的模式匹配,它允许具有一定误差的匹配,或称为近似字符串匹配;或对扩展模式(见第6章)进行匹配 对于长度为m的短模式P与长度为n的长文本T,假设允许的匹配误差为k,模式匹配就是从文本T中,找出小于等于误差条件的所有的模式P出现的文本位置。 可以用Levenshtein距离来度量串之间的距离。 * * 7.6 对压缩文本的搜索 直接对压缩的文本和索引进行搜索 根据:压缩数据中包含有直接或间接可以利用的可搜索信息和特征,使得搜索能够在被压缩的文本中直接进行 效果: 虽然CPU的执行时间没有太多的变化,但是由于磁盘速度的提高,从而提高了搜索的性能 * * 7.6 对压缩文本的搜索 一、倒排文件的压缩 事件表是按照文本中位置的增序排列的, 事件表的压缩 用当前位置与前一位置之间的差来编码进行压缩 表越长,差也越小,压缩率也就越高 在一个查询的响应过程中,大多数时间是花费在磁盘传输上。保持索引的压缩状态可以减少传输的数据量 * * 7.6 对压缩文本的搜索 二、后缀树和后缀数组的压缩 后缀数组很难再进行进一步压缩,这是因为它们已经是代表了指向文本的随机指针 可以在压缩文本上建立后缀数组 索引建立速度的提高是因为在相同的内存空间中可以调入更多的压缩文本 * * 7.6 对压缩文本的搜索 三、签名文件的压缩 对其掩码进行无损压缩编码,例如用游长编码来压缩 经过压缩的签名文件减少了存储空间,由此减少访问磁盘的时间。 或在保持相同空间开销的情况下,增加签名位的长度,以减少误差概率。 * * 小结 本章内容 当前文本索引的主要技术:倒排文件、后缀树以及签名文件 BF、KMP和BM三个经典的顺序查找算法 在压缩文本上直接进行搜索和索引的方法 对压缩数据直接进行搜索的方法尤其适合于多媒体,因为多媒体数据往往都是压缩形式的。 * Vocabulary (dictionary) Occurrence (posting list) * Vocabulary (dictionary) Occurrence (posting list) * Vocabulary (dictionary) Occurrence (posting list) * Vocabulary (dictionary) Occurrence (posting list) * Vocabulary (dictionary) Occurrence (posting list) * 后缀数组(su

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档