网络检索技术.pptVIP

  • 5
  • 0
  • 约1.41万字
  • 约 53页
  • 2015-08-07 发布于河南
  • 举报
网络检索技术.ppt

基于游程编码(run length)和整数差的索引压缩策略 把大的整数变成小的整数 基于字节对齐和基于位对齐的整数编码策略 倒排索引的动态维护 在动态检索环境下,文本集中文本频繁地进行动态的增加 和删除,这无疑给索引的构建和维护提出了新的挑战。 在线(on-line)索引构建策略,允许在索引建立的同时立即 提供检索服务,有效的适应了动态检索环境的要求。 在线索引维护首先对新加入的文档在内存建立索引,随后的 检索在内存索引和磁盘索引上同时进行。 由于内存资源的稀缺性(相对于硬盘而言),随着新文档 的加入,内存很快就会耗尽,这时就需要对内存中和硬盘上的 索引进行合并。当前针对索引的合并策略,主要有 In-place 和 Merge-Based,前者对于长的并且更新不是很频繁的置入列表 很有效,而后者对短的并且更新很频繁的置入列表进行合并很 有效。 In-place 索引维护 首先在内存中对渐增的文档建立索引,当内存耗尽时,把内存中的索引 追加到硬盘上的索引上,从而形成新的索引。为了加快索引的更新速度, 通常在硬盘上预先分配了更多的空间,一旦内存中的索引需要写入到硬盘 上时,就可以写到预留的空间中了,这样可以避免倒排列表的复制移动. Merge-based 索引维护 基于合并(Merge-based)索引更新策略一

文档评论(0)

1亿VIP精品文档

相关文档