Hadoop概述和2.0生态组件简介.docx

下载文档

26
0
约3.8千字
约 6页
2017-06-17 发布于北京
举报
版权申诉
保障服务

Hadoop概述和2.0生态组件简介.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop概述及2.0生态组件简介Hadoop是Apache软件基金会的顶级开源项目，是一套可靠的，可扩展的，支持分布式计算的开源软件，由原雅虎公司Doug Cutting根据Google发布的学术论文（Google File System、MapReduce、BigTable）而创建的开源项目。Doug Cutting被称为Hadoop之父。而Hadoop是一个虚构的名字，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短、容易发音和拼写，没有太多的意义，并且不会被用于别处，小孩子恰恰是这方面的高手”。所以Hadoop的logo就是一只奔跑的棕黄色小象。Hadoop是一个基础框架，允许用简单的编程模型在计算机集群对大型数据集进行分布式处理。它的设计规模从单一服务器到数千台机器，每个都提供本地计算和存储，框架本身提供计算机集群高可用的服务而不是依靠硬件来提供高可用性。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序，低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统。Hadoop的特点Hadoop是一个能够对大量数据进行分布式处理的软件框架，它是以一种可靠、高效、可伸缩的方式进行数据处理。高可靠性：Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性：Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可以方便地扩展到数以千计的节点中。高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。低成本：Hadoop 依赖于社区服务，它的成本比较低。Hadoop版本演进当前Hadoop已发展到第二代版本，最新稳定版本是2.7.2。Hadoop1.0被称为第一代Hadoop，由分布式文件系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成。第二代Hadoop被称为Hadoop2.0，是为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。针对Hadoop1.0中NameNode HA不支持自动切换且切换时间过长的风险，Hadoop2.0提出了基于共享存储的HA方式，支持失败自动切换切回。针对Hadoop 1.0中的单NameNode制约HDFS的扩展性问题，提出了HDFS Federation机制，它允许多个NameNode各自分管不同的命名空间进而实现数据访问隔离和集群横向扩展。针对Hadoop 1.0中的MapReduce在扩展性和多框架支持方面的不足，提出了全新的资源管理框架YARN，它将JobTracker中的资源管理和作业控制功能分开，分别由组件ResourceManager和ApplicationMaster实现。其中，ResourceManager负责所有应用程序的资源分配，而ApplicationMaster仅负责管理一个应用程序。相比于 Hadoop 1.0，Hadoop 2.0框架具有更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率以及能支持除了MapReduce计算框架外的更多的计算框架，Hadoop 2.0目前是业界主流使用的Hadoop版本。Hadoop 2.0生态组件HDFS（Hadoop分布式文件系统）HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。YARN（集群资源管理系统）YARN是Hadoop2.x以后对Hadoop1.x之前JobTracker和TaskTracker模型的优化而产生出来的，将JobTracker的资源分配和作业调度及监督分开。该框架主要有ResourceManager，Applicationmatser，Nodemanager。MapReduce（分布式离线计算框架）MapReduce是一种计算模型，用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。Tez（DAG计算框架）Tez是基于Hadoop Yarn之上的DAG（有向无