信息存储与检索第6章.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 并行与分布式信息检索 本章目录 第一节 引言 在因特网大容量的信息检索中,传统的顺序技术会遇到检索速度下降的困难,而并行信息检索能够突破顺序检索的局限,大大加快检索的处理速度。因此,并行检索技术是提高信息检索系统的响应时间的一种有效途径。 第一节 引言 集中式检索系统有着很多的局限性:其一,网络信息量呈指数增长,集中式的检索方法不能适应信息急剧增长的需要;其二,虽然目前的搜索引擎都在努力的增加对网络信息的覆盖率,但要想覆盖整个网络上的信息在目前几乎是不可能的;最后,检索系统之间通常没有分工协作,各自独立搜索和处理信息,造成了大量的重复工作和严重的带宽浪费,有时甚至能造成网络阻塞。为了适应网络规模的日益扩大,有必要采用分布式处理技术解决网络中大量信息的检索问题。 第二节 并行信息检索 6.2.1 并行信息检索原理 (一)多个查询之间的并行处理 利用MIMD结构对多个查询的处理并行化,即每个处理器处理不同的查询,每个查询的处理之间相互独立,最多只对共享内存内的部分代码或者公有数据实行共享。这种方法也称为任务级的并行检索,它可以同时处理多个查询请求,从而提高检索的吞吐量。 6.2.1 并行信息检索原理 (二)单个查询内部的并行处理 即对单个查询的计算量进行分割,分成多个子任务,并分配到多个处理器上的搜索进程上去执行。这种检索也称为进程级并行检索。 将单个查询分成多个子任务的方法通常有两种:一种称为数据集分割,它是事先将数据集分割成多个子集合,用同一查询式分别查询多个子集合数据,然后将每个子集合上的结果合并成最终结果;另一种称为查询项分割,它是将查询分解成多个子查询,对每个子查询分别查询数据集,得到部分结果,并将部分结果合并成最终结果。 6.2.2 并行检索的体系结构 并行体系结构利用指令流和数据流的多倍性将计算机系统分为四类:SISD(单指令流单数据流)、SIMD(单指令流多数据流)、MISD(多指令流单数据流)和MIMD(多指令流多数据流)。SISD对应于传统的顺序处理体系结构, MISD十分少见。并行机器实际上只有两类:SIMD和MIMD。 SIMD结构是用同一指令并行操作不同的数据,因而是一种并行数据计算。 MIMD结构比SIMD复杂,其中处理器之间是独立的,对不同的数据执行不同的指令。MIMD是目前并行引擎所使用的主要结构。 6.2.3 并行检索技术 (一)并行检索策略 并行技术分为数据并行和功能并行(控制并行)。 数据级并行依赖于并行处理机,特点是重复设置许多个同样的处理单元,按照一定的方式相互连接,在统一的控制部件作用下,各自对分配来的数据并行地完成同一指令所规定的操作。 功能并行主要表现于多个任务或多个程序段之间,执行时可能存在着数据交往或控制依赖,因而解决起来较为复杂。但是随着并行技术的进一步发展,程序的控制并行间题将得到逐步解决。 6.2.3 并行检索技术 (二)并行检索软件技术 软件中的并行性主要是指程序的相关性和网络互连。 程序的相关性分为数据相关、控制相关和资源相关:数据相关说明的是语句之间的有序关系,控制相关指的是语句执行次序在运行前不能确定的情况,资源相关与并行事件利用整数部件、浮点部件、寄存器和存储区等共享资源时发生的冲突有关。 网络互连使用静态或动态拓扑结构网络。静态网络由点—点直接相连而成,这种方式在程序执行过程中不会改变;动态网络可动态地改变结构,使之与用户程序中的通信要求匹配。 6.2.3 并行检索技术 (三)并行检索硬件技术 硬件技术方面主要从处理机、存储器和流水线三个方面来实现并行。 处理机系列包括CISC、RISC、超标量、VLIW、超流水线、向量以及符号处理机。 存储设备按容量和存取时间从低到高可分为寄存器、高速缓存、主存储器、磁盘设备和磁带机五个层次 流水线技术主要有指令流水线技术和运算流水线技术两种。 6.2.4 并行检索中的索引文档处理 (一)倒排表索引结构 检索系统通常采用倒排表(inverted file)索引结构,可直接从关键词映射到所在文档。 6.2.4 并行检索中的索引文档处理 (二)基于倒排表的分割处理 使用倒排表进行数据集分割有两种实现方法:物理倒排表分割方法和逻辑倒排表分割方法。这两者的数据集都在物理上分成多个子集合。 物理倒排表分割和逻辑倒排表分割的不同之处在于,前者不仅将数据集分割,而且将倒排索引表也同时进行分割,每个数据子集拥有自己独立的索引倒排结构。对于逻辑倒排表分割,倒排索引表物理上并不进行分割,而是增加一个处理机分配表,整张倒排索引表则被多个处理器共享使用。 6.2.4 并行检索中的索引文档处理 (三)SIMD机器上的倒排检索 SIMD机器也称阵列处理机,是由大量相同的互连的PE(处理单元)对分

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档