第6章Hadoop—分布式大数据系统78.pptx

下载文档

3
0
约1.71万字
约 79页
2021-08-03 发布于河北
举报
版权申诉
保障服务

第6章Hadoop—分布式大数据系统78.pptx

1、本文档共79页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

云计算与大数据技术人民邮电出版社王鹏黄焱安俊秀张逸琴编著目录CONTENTS第1章　云计算与大数据基础第2章　云计算与大数据的相关技术第3章　虚拟化技术第4章　集群系统基础第5章　 MPI—面向计算第6章　 Hadoop—分布式大数据系统第7章　 HPCC—面向数据的高性能计算集群系统第8章　 Storm—基于拓扑的流数据实时计算系统第9章　服务器与数据中心第10章云计算大数据仿真技术第6章　 Hadoop—分布式大数据系统第6章 Hadoop—分布式大数据系统《云计算与大数据技术》第6章 Hadoop—分布式大数据系统6.1　Hadoop概述6.2　HDFS6.2.1　HDFS文件系统的原型GFS6.2.2　HDFS文件的基本结构6.2.3　HDFS的存储过程6.3　MapReduce编程框架 6.3.1　MapReduce的发展历史6.3.2　MapReduce的基本工作过程6.3.3　LISP中的MapReduce6.3.4　MapReduce的特点6.4　实现Map/Reduce的C语言实例6.5　建立Hadoop开发环境6.5.1　相关准备工作6.5.2 　JDK的安装配置6.5.3　下载、解压Hadoop，配置Hadoop环境变量6.5.4　修改Hadoop配置文件6.5.5　将配置好的Hadoop文件复制到其他节点6.5.6　启动、停止Hadoop6.5.7　在Hadoop系统上运行测试程序WordCountHadoop是由Apache软件基金会研发的一种开源、高可靠、伸缩性强的分布式计算系统，主要用于对大于1TB的海量数据的处理。Hadoop采用Java语言开发，是对Google的MapReduce核心技术的开源实现。目前Hadoop的核心模块包括系统HDFS（Hadoop Distributed ，Hadoop分布式文件系统）和分布式计算框架MapReduce，这一结构实现了计算和存储的高度耦合，十分有利于面向数据的系统架构，因此已成为大数据技术领域的事实标准。Hadoop设计时有以下的几点假设：服务器失效是正常的；存储和处理的数据是海量的；文件不会被频繁写入和修改；机柜内的数据传输速度大于机柜间的数据传输速度；海量数据的情况下移动计算比移动数据更高效。 6.1　Hadoop概述Hadoop是Apache开源组织的分布式计算系统，其分为第一代Hadoop和第二代Hadoop。第一代Hadoop包含0.20.x、0.21.x、0.22.x三个版本，0.20.x最后演化成了1.0.x版本，第二代Hadoop包含0.23.x和2.x两个版本，2.x本版比0.23.x版本增加了NameNode HA和Wire-compatibility两个特性，版本发展如图6.1所示。图6.1　Hadoop本版发展路线6.1　Hadoop概述Hadoop与MPI在数据处理上的差异主要体现在数据存储与数据处理在系统中位置不同，MPI是计算与存储分离，Hadoop是计算向存储迁移，如图6.2所示。图6.2　Hadoop与MPI在数据处理上的差异6.1　Hadoop概述在MPI中数据存储的节点和数据处理的节点往往是不同的，一般在每次计算开始时MPI需要从数据存储节点读取需要处理的数据分配给各个计算节点对数据进行处理，因此MPI中数据存储和数据处理是分离的。对于计算密集型的应用MPI能表现出良好的性能，但对于处理TB级数据的数据密集型应用由于网络数据传输速度很慢，MPI的性能会大大降低，甚至会到不可忍受的地步，所以对于构建在MPI上的并行计算系统网络通讯速度一直是一个重要的性能指标，用“计算换通信”也是MPI并行程序设计中的基本原则。6.1　Hadoop概述在Hadoop中由于有HDFS文件系统的支持，数据是分布式存储在各个节点的，计算时各节点读取存储在自己节点的数据进行处理，从而避免了大量数据在网络上的传递，实现“计算向存储的迁移”。6.2　HDFSHadoop系统实现对大数据的自动并行处理，是一种数据并行方法，这种方法实现自动并行处理时需要对数据进行划分，而对数据的划分在Hadoop系统中从数据的存储就开始了，因此文件系统是Hadoop系统的重要组成部分，也是Hadoop实现自动并行框架的基础。Hadoop的文件系统称为HDFS（Hadoop Distributed ）。6.2.1　HDFS文件系统的原型GFSHadoop中的HDFS原型来自Google 文件系统（Google ，GFS），为了满足Google迅速增长的数据处理要求，Google设计并实现了GFS。Google文件系统是一个可扩展的分布式文件系统，用于对大量数据进行访问的大型、分布式应用。它运