网络检索技术.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络检索技术.ppt

基于游程编码(run length)和整数差的索引压缩策略 把大的整数变成小的整数 基于字节对齐和基于位对齐的整数编码策略 倒排索引的动态维护 在动态检索环境下,文本集中文本频繁地进行动态的增加 和删除,这无疑给索引的构建和维护提出了新的挑战。 在线(on-line)索引构建策略,允许在索引建立的同时立即 提供检索服务,有效的适应了动态检索环境的要求。 在线索引维护首先对新加入的文档在内存建立索引,随后的 检索在内存索引和磁盘索引上同时进行。 由于内存资源的稀缺性(相对于硬盘而言),随着新文档 的加入,内存很快就会耗尽,这时就需要对内存中和硬盘上的 索引进行合并。当前针对索引的合并策略,主要有 In-place 和 Merge-Based,前者对于长的并且更新不是很频繁的置入列表 很有效,而后者对短的并且更新很频繁的置入列表进行合并很 有效。 In-place 索引维护 首先在内存中对渐增的文档建立索引,当内存耗尽时,把内存中的索引 追加到硬盘上的索引上,从而形成新的索引。为了加快索引的更新速度, 通常在硬盘上预先分配了更多的空间,一旦内存中的索引需要写入到硬盘 上时,就可以写到预留的空间中了,这样可以避免倒排列表的复制移动. Merge-based 索引维护 基于合并(Merge-based)索引更新策略一般不像 In-Place 那样通过置 入列表的追加操作完成的,而是对内存中的子索引和磁盘中的索引进行合 并,从而产生新的倒排索引, 通常,内存耗尽时触发索引合并事件。根据合 并策略的不同通常有以下几种策略,不合并(No Merge)、立即合并 (Immediate merge)、对数合并(Logarithmic Merge)。 混合索引动态维护策略 其主要是综合了 In-place 和 Merge-based 索引维护策略,其区分了长置 入列表和短置入列表,对于长的置入列表运用In-place更新策略,避免了大量数据的移动;而短的置入列表运用Merge-based索引维护策略 No-Merge 策略的原理为: 首先在内存中对增加的文本建立索引,当内存耗尽时,将内存中的创建的子索引直接存盘,不和硬盘上的索引进行合并(即:No Merge),允许在硬盘上并列存在多个子索引. 索引更新操作的速度很快, 延长检索响应时 Immediate merge策略 在硬盘上只维护一个大的索引,一旦内存耗尽即触发索引合并事件,对内存上的子索引和硬盘上的大索引立即进行合并处理,形成新的索引.其索引更新操作的速度很慢,代价比较高, 加快了检索响应速度 对数合并策略 基本原理为:对索引进行分代(Generation),直接由内存产生的子索引记为第 0 代;如果第 n 代之间的子索引进行合并,则产生的索引记为第 n+1 代;只有相同代之间的子索引才能进行合并,当同代之间的子索引个数大于等于 2 时,即触发索引合并事件,同代之间的每两个子索引进行合并,产生+1代的索引,直到没有代相同的子索引为止。 然而,在实际的动态检索环境下,还包括文本集中的文本的 删除,这时就需要将删除文本的置入项从置入列表中删除, 此种情况比单调增加要复杂的多。 通常对这种情况的处理方式有两种:一种是直接对相应的记 录在倒排索引中删除,即遍历每个包含该文档中词的置入列 表,对相应的置入项删除;另一种是建立一个删除列表,用 于标识每一个待删除的文档,并在置入列表中对待删除的置 入项进行标识,等到记录数到达一定量时(一般设置一个阈 值)统一进行处理,有人把这种方式叫做垃圾回收策略 相关排序 传统上,人们将信息检索系统返回结果的排序称为“相关 排序”(relevance ranking),其中各条目的顺序反映结果和查 询的相关程度。 在搜索引擎的情况下,人们也这么讲,但内涵其实是有 了差别。一方面,搜索引擎维护的内容十分繁杂且不规范, 不像传统的图书、文献等有很好的分类体系管理。另一方 面,搜索引擎面对的用户背景广阔,层次多样,不像传统的 信息检索系统所面对的用户通常有相对比较整齐的用户群。 因此,搜索引擎要给出的不是一个狭义的相关序,而是某种 反映多种因素的综合统计优先序。 (1)传统IR的相关排序 给定某个文档集合D,大小为M;设两篇文档dl,d2∈D, 一个查询q。用什么样的标准来讲“dl与d2相比,前者和q更相 关?” 这方面最经典、最有影响的工作是Gerald Salton等在 30多年前提出的“向量空间模型”。 这一理论照搬到网络搜索系统中有很大的问题,其原因在 于web信息的质量参差不齐,索引质量不高;大部分

文档评论(0)

mwap + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档