分布式并行信息检索相关技术研究.docxVIP

下载本文档

5
0
约1.06万字
约 7页
2019-09-27 发布于湖北
举报
版权申诉

分布式并行信息检索相关技术研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式并行信息检索相关技术研究张青峰南开大学信息技术科学学院天津 300071 摘要当今社会，爆炸性增长的网络信息不但给用户提供了丰富的知识来源, 同时也给检索系统带来了巨大的挑战。并行技术和分布式技术是解决这种大规模信息检索问题的关键技术，分布式并行信息检索是分布式并行计算技术在信息检索领域的应用。本文介绍了并行检索技术和分布式检索技术的基本概念、原理和方法，并对信息检索中的查询性能预测进行了介绍，主要论述了查询性能预测的主要方法和关键技术，最后讨论了分布式并行信息检索面临的一些挑战，并对未来的研究工作进行了展望和分析。关键字信息检索,并行检索，分布式检索，查询性能预测引言当今社会，爆炸性增长的网络信息不但给用户提供了丰富的知识来源, 同时也给检索系统带来了巨大的挑战。在信息爆炸的大数据时代，搜索引擎索引页面通常能够达到几十亿个到上百亿个,虽然单台计算机的处理能力不断提高，但是要对大规模海量的信息数据进行检索，单台计算机的处理能力毕竟有限，传统的基于单机的集中式信息检索技术已无法满足这种以大规模数据集为基础的并发多用户信息检索的需求，因此特别需要多台计算机进行“团队作战”。而并行计算和分布式计算能够利用多台计算机或者多个处理器的计算或存储资源来解决大规模数据问题。因此，很自然地会想到将并行处理或者分布式处理技术引入到信息检索当中，由此产生了分布式并行信息检索技术。分布式并行信息检索是分布式并行计算技术在信息检索领域的应用，是计算机技术与网络通讯技术的有机结合，它将分散的计算机资源统一整合，以发挥集群优势为目标，实现高速网络环境下的快速信息检索。在大规模数据检索中，并行处理具有较大的潜力可以挖掘，利用分布式系统，可以实现多条查询之间的并行检索以及单条查询内部的并行处理，由此提高整个系统的检索效率。本文的组织如下：第二节介绍并行计算、并行检索的基本概念、原理、方法和相关的进展；第三节介绍分布式计算、分布式检索的基本概念、原理、方法和相关进展；第四接介绍了信息检索性能预测相关方法；最后是对未来研究方向进行展望和分析。并行检索并行计算并行计算指的是，将单个问题划分为多个较小的“子”问题，用多个处理器同时分别处理这些“子”问题来得到单个问题的解。显然，由于并行计算能够同时利用多个处理器资源，所以通常能够减少问题求解的总时间，从而解决大规模的问题。多个可以同时工作的处理部件或处理器构成的计算机系统，称为并行计算机。并行计算系统包括并行计算机或多处理机系统。在并行计算系统中，不同处理器同时运行多个程序或者一个程序的不同进程，从而提高系统的运算速度。并行计算通过“以成本换时间”的方式来减少求解问题的总时间。总时间取决于时间最长的那个“部分”问题的求解。通过并行计算，系统具有较好的可伸缩性。根据指令和数据流的数目不同，并行计算的体系结构通常可以分成SISD、SIMD、MISD、MIMD等四种类型。其中MIMD是现在最通用和使用最广泛的一种类型。后面提到的并行检索也主要基于这种体系结构。MIMD并行体系结构主要由多个具有自己的控制单元、处理单元和局部内存的多个处理器组成，多个处理器之间通过共享内存或者通信网络相连接(图中以粗黑线表示)。MIMD可以处理互相独立的多个任务或者协同执行同一个任务。MIMD体系结构中，如果处理器之间交互通讯频繁，则称为紧耦合(tightly coupled)系统；反之，则称为松耦合(loosely coupled)系统。并行检索要实现并行检索，首先让我们考察信息检索的一般过程： ref SHAPE 如图所示，用户提交一条查询，代理程序(broker)对原始查询进行处理(如查询的分析转换或格式化处理等等)，然后将处理后的查询发给搜索程序，搜索程序找到结果并进行处理(如排序)后返回给代理，代理经过必要的处理(如结果的归整、合并等)将结果返回给用户。从以上可以看出，信息检索有并行处理的潜力可以充分挖掘。根据对象的不同，并行检索总体上可通过以下两种方式实现并行：多条查询之间的并行处理。一个最自然的想法就是利用MIMD结构对多条查询的处理并行化，即每个处理器处理不同的查询，每个查询的处理之间相互独立，最多只对共享内存内的部分代码或者公有数据实行共享。这种方法也称为任务级的并行检索。它可以同时处理多个查询请求，从而提高检索的吞吐量。上图显示了3条不同查询在3个处理器上的并行处理过程。每条查询通过代理(也可同时运行多个代理程序，每个代理分别处理一条查询)发送到不同搜索程序(每个处理器上运行一个搜索程序)上去执行，每个搜索程序的结果通过代理返回到不同查询的发起者。ref SHAPE 如果MIMD由多台具有自身处理器和磁盘的计算机组成，每台机器执行自己的搜索程序，并且只访