基于Hadoop云平台设计与实现.docVIP

下载本文档

48
1
约6.49千字
约 12页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop云平台设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop云平台设计与实现

基于Hadoop云平台设计与实现　　摘要：Hadoop是一个免费、可靠、高效、可扩展的开源云平台，允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础，详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台，经过测试，本系统能正常运行MapReduce化的分布式程序，本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述，为基于Hadoop的云平台研究和应用程序开发提供了基础。　　关键词：Hadoop；MapReduce；云平台搭建　　中图分类号：TP393 文献标识码：A 　　Abstract：Hadoop is a free， reliable， efficient and scalable open source cloud platform， which allows the software framework to deal with large data on a distributed cluster. Based on Hadoop， this paper introduces the technology of CentOS， JDK， Hadoop and VMware in virtual machine. Virtual cloud platform is built in the pseudo distributed environment. After testing， the system can run the MapReduce oriented distributed program. This paper also provides a basis for the research of the SSH based cloud platform and application program based on Hadoop. 　　Key words：Hadoop；MapReduce；Construct the cloud computing platform 　　0 引言　　随着互联网时代信息与数据的飞速增长，科学、工程和商业等研究领域均需要处理大规模以及超大规模的数据，对计算能力的需求已远远超出自身系统架构的承载运行限度。云计算是分布式计算、并行处理和网格计算的进一步发展，是基于互联网的计算，能够向各种互联网应用提供基础架构服务、硬件服务、软件服务、平台服务、存储服务，这就意味着计算可以作为一种商品实现流通，不仅使用方便，费用也相对低廉[1]。此外，由于传统并行编程模型应用的设计局限，客观上需要一种容易学习、使用和部署的编程框架，而Hadoop就是一个优秀的大数据处理框架，性能表现高效稳定，非常适合选择作为云计算的基础架构。　　1相关技术介绍　　Hadoop是一个可运行在大量低配硬件设备上的分布式计算框架，并且能为其中的应用程序提供可靠的接口，构建扩展性好、可靠性强、具有良好可移植性的分布式系统[2]。Hadoop云平台主要包括：HDFS分布式文件系统、MapReduce编程模型、HBase数据库和Zookeeper分布式应用程序协调服务。这刚好与Google核心技术GFS、MapReduce和BigTable类似。　　1.1分布式文件系统HDFS 　　Hadoop分布式文件系统可以将信息存储在具有不同节点的设备中。具体由2部分组成，分别是：名称节点NameNode和数据节点DataNode，NameNode相当于管理者，全面管理集群内的DataNode，当用户发送请求信息后，NameNode会根据情况指定存储到哪些DataNode上，而并不存储真实的数据。原理工作流程如图1所示。　　HDFS在执行读或写的过程中，NameNode和DataNode通过心跳信息保存通信，确定DataNode不是宕机。如果发现DataNode停止了工作，就将该DataNode上的数据备份到其他节点中，并读取该备份数据，这就是HDFS的容错机制[3]。　　1.2 MapReduce 编程模型　　MapReduce提供了一个并行处理大数据集的编程模型，由Map和Reduce这2个阶段组成。只需编写map 和reduce 2个函数，即可完成简单的分布式程序的计算。map函数以key/value 对作为输入，产生另外一系列key/value 对作为中间输出写入本地磁盘[4]。MapReduce框架会自动将这些中间数据按照键值进行聚集操作，并且键值相同（可设定聚集方法，默认是对键值进行哈希取模）的数据将统一交送reduce函数进行转换处理。reduce函数以key和其对应的value列表