hadoop分布式大数据系统.ppt

下载文档

81
0
约1.79万字
约 78页
2019-02-12 发布于天津
举报
版权申诉
保障服务

hadoop分布式大数据系统.ppt

1、本文档共78页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hadoop分布式大数据系统

云计算与大数据技术目录第1章　云计算与大数据基础第2章　云计算与大数据的相关技术第3章　虚拟化技术第4章　集群系统基础第5章　 MPI—面向计算第6章　 Hadoop—分布式大数据系统第7章　 HPCC—面向数据的高性能计算集群系统第8章　 Storm—基于拓扑的流数据实时计算系统第9章　服务器与数据中心第10章云计算大数据仿真技术第6章 Hadoop—分布式大数据系统《云计算与大数据技术》第6章 Hadoop—分布式大数据系统 6.1　Hadoop概述 6.2　HDFS 6.2.1　HDFS文件系统的原型GFS 6.2.2　HDFS文件的基本结构 6.2.3　HDFS的存储过程 6.3　MapReduce编程框架 6.3.1　MapReduce的发展历史 6.3.2　MapReduce的基本工作过程 6.3.3　LISP中的MapReduce 6.3.4　MapReduce的特点 6.4　实现Map/Reduce的C语言实例 Hadoop是由Apache软件基金会研发的一种开源、高可靠、伸缩性强的分布式计算系统，主要用于对大于1TB的海量数据的处理。 Hadoop采用Java语言开发，是对Google的MapReduce核心技术的开源实现。目前Hadoop的核心模块包括系统HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）和分布式计算框架MapReduce，这一结构实现了计算和存储的高度耦合，十分有利于面向数据的系统架构，因此已成为大数据技术领域的事实标准。 Hadoop设计时有以下的几点假设：服务器失效是正常的；存储和处理的数据是海量的；文件不会被频繁写入和修改；机柜内的数据传输速度大于机柜间的数据传输速度；海量数据的情况下移动计算比移动数据更高效。 6.1　Hadoop概述 Hadoop是Apache开源组织的分布式计算系统，其分为第一代Hadoop和第二代Hadoop。第一代Hadoop包含0.20.x、0.21.x、0.22.x三个版本，0.20.x最后演化成了1.0.x版本，第二代Hadoop包含0.23.x和2.x两个版本，2.x本版比0.23.x版本增加了NameNode HA和Wire-compatibility两个特性，版本发展如图6.1所示。 6.1　Hadoop概述 Hadoop与MPI在数据处理上的差异主要体现在数据存储与数据处理在系统中位置不同，MPI是计算与存储分离，Hadoop是计算向存储迁移，如图6.2所示。 6.1　Hadoop概述在MPI中数据存储的节点和数据处理的节点往往是不同的，一般在每次计算开始时MPI需要从数据存储节点读取需要处理的数据分配给各个计算节点对数据进行处理，因此MPI中数据存储和数据处理是分离的。对于计算密集型的应用MPI能表现出良好的性能，但对于处理TB级数据的数据密集型应用由于网络数据传输速度很慢，MPI的性能会大大降低，甚至会到不可忍受的地步，所以对于构建在MPI上的并行计算系统网络通讯速度一直是一个重要的性能指标，用“计算换通信”也是MPI并行程序设计中的基本原则。 6.1　Hadoop概述在Hadoop中由于有HDFS文件系统的支持，数据是分布式存储在各个节点的，计算时各节点读取存储在自己节点的数据进行处理，从而避免了大量数据在网络上的传递，实现“计算向存储的迁移”。 6.2　HDFS Hadoop系统实现对大数据的自动并行处理，是一种数据并行方法，这种方法实现自动并行处理时需要对数据进行划分，而对数据的划分在Hadoop系统中从数据的存储就开始了，因此文件系统是Hadoop系统的重要组成部分，也是Hadoop实现自动并行框架的基础。Hadoop的文件系统称为HDFS（Hadoop Distributed File System）。 6.2.1　HDFS文件系统的原型GFS Hadoop中的HDFS原型来自Google 文件系统（Google File System，GFS），为了满足Google迅速增长的数据处理要求，Google设计并实现了GFS。 Google文件系统是一个可扩展的分布式文件系统，用于对大量数据进行访问的大型、分布式应用。它运行于廉价的普通硬件上，但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务，也可以提供容错功能。我们认为GFS是一种面向不可信服务器节点而设计的文件系统。谷歌“三宝”是“Google文件系统”、“BigTable大表”、“MapReduce算法”，有了自己的文件系统，谷歌就可以有效地组织庞大的数据、服务器和存储，并用它们工作。作为谷歌“三宝”的其中之一，GFS