- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
...
...
基于 Hadoop 的云计算模型研究与应用
重庆大学硕士学位论文
学生姓名:曹风兵
指导教师:吴开贵 副教授
专 业:计算机系统结构
学科门类:工 学
重庆大学计算机学院
二 O 一一年四月
The Research and Application of Cloud
Computing Model Based on Hadoop
A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Degree of Master of Engineering
By
Cao Fengbing
Fengbing Cao
Supervised by Associate Prof. Wu Kaigui
Specialty: Computer System Architecture
College of Computer Science of Chongqing
University, Chongqing, China
April 2011
中文摘要
摘 要
随着社会进步和互联网技术发展,网络数据量飞速增长且规模日渐庞大,不
管是企业还是个人都面临如何对这些海量数据进行有效存储和分析的难题。面对
正在增长的海量数据,传统数据处理方法存在数据存储成本过高、海量数据管理
较困难、可靠性较低、效率低下、并行处理程序编写困难等诸多缺点。人们需要
一种新的技术思想来解决这些问题。云计算的思想就很自然地被提出来。
云计算通过整合互联网络中的闲散资源,对外提供强大的存储和计算能力,
以及一些其它解决方案。Hadoop 是一个开源分布式数据处理框架,被用于高效地
处理海量数据。由于 Hadoop 具有可伸缩性、高可靠性、低成本性和高效性等优点,
已成为一种流行的云计算开发平台。但是 Hadoop 也存在一定的缺陷,例如,在
Hadoop 集群中只要一个名字节点来管理整个文件系统的元数据和执行重要的文件
系统操作。这会限制集群的可扩展性、可用性;另外,在传统 Hadoop 中,计算和
存储是紧耦合的,这也会对集群的性能造成限制。
本文的研究课题是基于 Hadoop 的云计算模型研究与应用,主要目标是:分析
传统 Hadoop 框架的性能瓶颈,设计一种新的 Hadoop 框架;在改进传统 Hadoop
框架的基础上,设计基于改进后的 Hadoop 的云计算模型,实现相应云计算平台,
重点解决海量数据存储和分析的难题。
论文的主要工作和成果如下:
①介绍云计算的基础理论,包括云计算的概念、特点、关键技术和典型的平
台应用。
② 阐述 Hadoop 的基础架构,包括分布式文件系统(HDFS)、并行编程模型
MapReduce 的原理和实现机制、Hadoop 框架优化措施等。详细分析了 HDFS 的数
据管理机制、性能保障措施、以及文件的读取和写入过程。
③分析 Hadoop 的性能瓶颈,设计了一个新型的 Hadoop 架构,解决了传统
Hadoop 架构中的单名字节点的瓶颈问题,以及计算与存储紧耦合问题,通过理论
分析和实验对比,论证了新框架的高效性。新框架具有高可用性和良好的可扩展
能力。
④ 完成了基于改进的 Hadoop 的云计算模型设计,结合 WEB 技术实现了云模
型中功能模块的开发。
本文云计算模型具有高效性、高可靠性、低成本和易于使用等优点。此系统
模型可应用于企业数据存储和计算、科学研究等领域,为海量数据存储和计算提
供了高可靠性、低成本的解决方案,为云计算技术的发展和 Hadoop 应用提供了一
I
重庆大学硕士学位论文
种新的思路。
关键词:云计算,海量数据,Hadoop,MapReduce
II
英文摘要
ABSTRACT
With the development of Internet technology and society, the amount and scales of
network data are rapidly growing. No matter who enterprises or individuals face the
problem, that is, how to store and analyze these massive data. With the growing amount
of data, the traditional methods for processing massive data have many shortcomings,
such as, higher cost of data storage, more difficult data ma
文档评论(0)