“天网”高性能分布式检索系统设计与实现.docVIP

下载本文档

6
0
约2.25万字
约 6页
2016-08-25 发布于河南
举报
版权申诉

“天网”高性能分布式检索系统设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

“天网”高性能分布式检索系统设计与实现

“天网”高性能分布式检索系统的设计与实现赵江华（硕士论文，2002）摘要随着社会信息化的飞速发展，信息资源呈现爆炸式增长，信息系统的规模和复杂程度在不断扩大，人们必须能够存储、处理和使用各种海量的数字化信息。信息检索技术可以实现按内容检索结构化和非结构化数据，被认为是解决信息过剩的有效途径，有着极其重要的意义。搜索引擎和数字图书馆作为信息检索最重要的两个应用，已经产生了巨大社会的效益，其影响日益广泛。本文以“天网”搜索引擎为应用背景，首先介绍信息检索系统的各种基本问题，然后深入讨论在单机系统中与系统性能相关的几个因素和提高检索效率的策略，试图用定量的方法描述检索系统中计算机硬件、数据规模等因素和性能之间的关系。为了克服单机系统所固有的限制，我们设计和实现了“天网”的分布式检索系统版本，保证了“天网”在维护上千万网页信息的情况下仍然能够提供秒级的查询响应，文中对此做了详细介绍。进一步的系统模拟试验表明：分布式情况下系统的瓶颈不是网络带宽，而是每个节点的检索并发性能。进而，随着“天网”系统并行化的完成，参与运行的机器数量不断增长，我们感到对它本身的管理成为制约其进一步发展的重要因素。系统管理问题在计算机技术中存在已久，它在经济和技术上的重要性逐渐被人们所认识到。由于信息技术在社会中的深入应用和普及，加之硬件和软件愈来愈复杂，可靠性和可维护性都难以保证，系统管理逐渐成为制约信息系统发展的瓶颈。本文从传统的系统管理基本问题出发，结合网格计算和自动计算的方法和概念，提出了一种整体的解决方案，并且根据“天网”系统管理的需求，对今后发展给出了两个探索性研究建议。关键词：信息检索，搜索引擎，倒排文件，分布式系统，并行，系统管理，网格计算，自动计算 Abstract With high-speed advances in information spaces, information resources are increasing explosively along with the scale and complexity of the information systems. There is a great need for storing, processing and implementing various aspects of digital information. Unlike common database technology, Information Retrieval (IR) can assist users in finding useful information from structured and unstructured data, which is considered an effective way of preventing information overload. Two important applications of IR, Search Engine and Digital Library, have produced many benefits to society and they are wielding an ever-increasing influence. The fundamental problems of an Information Retrieval System will be introduced first. “WebGather” Search Engine will be utilized as a background for application in this thesis. Then, we will detail some factors relevant to system performance (such as computer hardware, data scales, etc) and methods of improving retrieval efficiency, trying to quantitatively describe the relations between these factors and performance. In order to overcome the built-in limitation of a single computer system, we will design and implement a distributed retrieval system of “WebGather” that retrieves query responses in l