Hadoop技术原理总结.docx

下载文档 降价啦

1
0
约7.04千字
约 7页
2017-05-31 发布于湖北
举报
版权申诉
保障服务

Hadoop技术原理总结.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop技术原理总结剖析

1、Hadoop运行原理????? Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架，其最核心的设计包括：MapReduce和HDFS。基于?Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。????? 基于MapReduce计算模型编写分布式并行程序相对简单，程序员的主要工作就是设计实现Map和Reduce类，其它的并行编程中的种种复杂问题，如分布式存储，工作调度，负载平衡，容错处理，网络通信等，均由?MapReduce框架和HDFS文件系统负责处理，程序员完全不用操心。换句话说程序员只需要关心自己的业务逻辑即可，不必关心底层的通信机制等问题，即可编写出复杂高效的并行程序。如果说分布式并行编程的难度足以让普通程序员望而生畏的话，开源的?Hadoop的出现极大的降低了它的门槛。2、Mapreduce原理???????简单的说：MapReduce框架的核心步骤主要分两部分：Map和Reduce。当你向MapReduce框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce任务的输入数据。Reduce对数据做进一步处理之后，输出最终结果。????? MapReduce是Hadoop的核心技术之一，为分布式计算的程序设计提供了良好的编程接口，并且屏蔽了底层通信原理，使得程序员只需关心业务逻辑本事，就可轻易的编写出基于集群的分布式并行程序。从它名字上来看，大致可以看出个两个动词Map和Reduce，“Map（展开）”就是将一个任务分解成为多个子任务并行的执行，“Reduce”就是将分解后多任务处理的结果汇总起来，得出最后的分析结果并输出。???????适合用?MapReduce来处理的数据集(或任务)有一个基本要求：待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。????? Map-Reduce的处理过程主要涉及以下四个部分：??????? ?Client进程：用于提交Map-reduce任务job；?????? ?JobTracker进程：其为一个Java进程，其main class为JobTracker；?????? ?TaskTracker进程：其为一个Java进程，其main class为TaskTracker；?????? ?HDFS：Hadoop分布式文件系统，用于在各个进程间共享Job相关的文件；???? 其中JobTracker进程作为主控，用于调度和管理其它的TaskTracker进程, JobTracker可以运行于集群中任一台计算机上，通常情况下配置JobTracker进程运行在NameNode节点之上。TaskTracker负责执行JobTracker进程分配给的任务，其必须运行于?DataNode?上，即?DataNode?既是数据存储结点，也是计算结点。?JobTracker将Map任务和Reduce任务分发给空闲的TaskTracker,让这些任务并行运行，并负责监控任务的运行情况。如果某一个?TaskTracker出故障了，JobTracker会将其负责的任务转交给另一个空闲的TaskTracker重新运行。???? 本地计算-原理????? 数据存储在哪一台计算机上，就由这台计算机进行这部分数据的计算，这样可以减少数据在网络上的传输，降低对网络带宽的需求。在Hadoop这样的基于集群的分布式并行系统中，计算结点可以很方便地扩充，而因它所能够提供的计算能力近乎是无限的，但是由是数据需要在不同的计算机之间流动，故网络带宽变成了瓶颈，是非常宝贵的，“本地计算”是最有效的一种节约网络带宽的手段，业界把这形容为“移动计算比移动数据更经济”。3、HDFS存储的机制???? ??Hadoop的分布式文件系统?HDFS是建立在Linux文件系统之上的一个虚拟分布式文件系统，它由一个管理节点?( NameNode )和N个数据节点?( DataNode )组成，每个节点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似，一样可以建目录，创建，复制，删除文件，查看文件内容等。但其底层实现上是把文件切割成Block（块），然后这些?Block分散地存储于不同的?DataNode?上，每个?Block还可以复制数份存储于不同的?DataNode上，达到容错容灾之目的。NameNode则是整个?HDFS的核心，它通过维护一些数据结构，记录了每一个文件被切割成了多少个?Block，这些?Block可以从哪些?DataNode中获得，各个?Dat