基于Hadoop的云计算模型研究与应用.doc

下载文档 降价啦

5
0
约6.48万字
约 126页
2019-06-13 发布于江苏
举报
版权申诉
保障服务

基于Hadoop的云计算模型研究与应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

... ... 基于 Hadoop 的云计算模型研究与应用重庆大学硕士学位论文学生姓名：曹风兵指导教师：吴开贵副教授专业：计算机系统结构学科门类：工学重庆大学计算机学院二 O 一一年四月 The Research and Application of Cloud Computing Model Based on Hadoop A Thesis Submitted to Chongqing University in Partial Fulfillment of the Requirement for the Degree of Master of Engineering By Cao Fengbing Fengbing Cao Supervised by Associate Prof. Wu Kaigui Specialty: Computer System Architecture College of Computer Science of Chongqing University, Chongqing, China April 2011 中文摘要摘要随着社会进步和互联网技术发展，网络数据量飞速增长且规模日渐庞大，不管是企业还是个人都面临如何对这些海量数据进行有效存储和分析的难题。面对正在增长的海量数据，传统数据处理方法存在数据存储成本过高、海量数据管理较困难、可靠性较低、效率低下、并行处理程序编写困难等诸多缺点。人们需要一种新的技术思想来解决这些问题。云计算的思想就很自然地被提出来。云计算通过整合互联网络中的闲散资源，对外提供强大的存储和计算能力，以及一些其它解决方案。Hadoop 是一个开源分布式数据处理框架，被用于高效地处理海量数据。由于 Hadoop 具有可伸缩性、高可靠性、低成本性和高效性等优点，已成为一种流行的云计算开发平台。但是 Hadoop 也存在一定的缺陷，例如，在 Hadoop 集群中只要一个名字节点来管理整个文件系统的元数据和执行重要的文件系统操作。这会限制集群的可扩展性、可用性；另外，在传统 Hadoop 中，计算和存储是紧耦合的，这也会对集群的性能造成限制。本文的研究课题是基于 Hadoop 的云计算模型研究与应用，主要目标是：分析传统 Hadoop 框架的性能瓶颈，设计一种新的 Hadoop 框架；在改进传统 Hadoop 框架的基础上，设计基于改进后的 Hadoop 的云计算模型，实现相应云计算平台，重点解决海量数据存储和分析的难题。论文的主要工作和成果如下： ①介绍云计算的基础理论，包括云计算的概念、特点、关键技术和典型的平台应用。 ② 阐述 Hadoop 的基础架构，包括分布式文件系统（HDFS）、并行编程模型 MapReduce 的原理和实现机制、Hadoop 框架优化措施等。详细分析了 HDFS 的数据管理机制、性能保障措施、以及文件的读取和写入过程。 ③分析 Hadoop 的性能瓶颈，设计了一个新型的 Hadoop 架构，解决了传统 Hadoop 架构中的单名字节点的瓶颈问题，以及计算与存储紧耦合问题，通过理论分析和实验对比，论证了新框架的高效性。新框架具有高可用性和良好的可扩展能力。 ④ 完成了基于改进的 Hadoop 的云计算模型设计，结合 WEB 技术实现了云模型中功能模块的开发。本文云计算模型具有高效性、高可靠性、低成本和易于使用等优点。此系统模型可应用于企业数据存储和计算、科学研究等领域，为海量数据存储和计算提供了高可靠性、低成本的解决方案，为云计算技术的发展和 Hadoop 应用提供了一 I 重庆大学硕士学位论文种新的思路。关键词：云计算，海量数据，Hadoop，MapReduce II 英文摘要 ABSTRACT With the development of Internet technology and society, the amount and scales of network data are rapidly growing. No matter who enterprises or individuals face the problem, that is, how to store and analyze these massive data. With the growing amount of data, the traditional methods for processing massive data have many shortcomings, such as, higher cost of data storage, more difficult data ma