- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
原理
1、Hadoop 运行原理
Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计
包括:MapReduce 和 HDFS。基于Hadoop,你可以轻松地编写可处理海量数据的分布式并行
程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。
基于MapReduce 计算模型编写分布式并行程序相对简单,程序员的主要工作就是设计实
现Map 和Reduce 类,其它的并行编程中的种种复杂问题,如分布式存储,工作调度,负载
平衡,容错处理,网络通信等,均由MapReduce 框架和HDFS 文件系统负责处理,程序员完
全不用操心。换句话说程序员只需要关心自己的业务逻辑即可,不必关心底层的通信机制等
问题,即可编写出复杂高效的并行程序。如果说分布式并行编程的难度足以让普通程序员望
而生畏的话,开源的Hadoop 的出现极大的降低了它的门槛。
2、Mapreduce 原理
简单的说:MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce
框架提交一个计算作业时,它会首先把计算作业拆分成若干个 Map 任务,然后分配到不同
的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生
成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 对数据做进一步
处理之后,输出最终结果。
MapReduce 是Hadoop 的核心技术之一,为分布式计算的程序设计提供了良好的编程接
口,并且屏蔽了底层通信原理,使得程序员只需关心业务逻辑本事,就可轻易的编写出基于
集群的分布式并行程序。从它名字上来看,大致可以看出个两个动词Map 和Reduce,“Map
(展开)”就是将一个任务分解成为多个子任务并行的执行,“Reduce”就是将分解后多任务
处理的结果汇总起来,得出最后的分析结果并输出。
适合用MapReduce 来处理的数据集(或任务)有一个基本要求:待处理的数据集可以分解
成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。
Map-Reduce 的处理过程主要涉及以下四个部分:
?Client 进程:用于提交Map-reduce 任务job ;
?JobTracker 进程:其为一个Java 进程,其main class 为JobTracker ;
?TaskTracker 进程:其为一个Java 进程,其main class 为TaskTracker ;
?HDFS:Hadoop 分布式文件系统,用于在各个进程间共享Job 相关的文件;
其中JobTracker 进程作为主控,用于调度和管理其它的TaskTracker 进程, JobTracker 可以
运行于集群中任一台计算机上,通常情况下配置JobTracker 进程运行在NameNode 节点之上。
TaskTracker 负责执行 JobTracker 进程分配给的任务,其必须运行于 DataNode 上,
即DataNode 既是数据存储结点,也是计算结点。JobTracker 将 Map 任务和 Reduce 任务分
发给空闲的 TaskTracker, 让这些任务并行运行,并负责监控任务的运行情况。如果某一
个TaskTracker 出故障了,JobTracker 会将其负责的任务转交给另一个空闲的TaskTracker 重新
运行。
本地计算-原理
数据存储在哪一台计算机上,就由这台计算机进行这部分数据的计算,这样可以减少数
据在网络上的传输,降低对网络带宽的需求。在Hadoop 这样的基于集群的分布式并行系统
中,计算结点可以很方便地扩充,而因它所能够提供的计算能力近乎是无限的,但是由是数
据需要在不同的计算机之间流动,故网络带宽变成了瓶颈,是非常宝贵的,“本地计算”是
最有效的一种节约网络带宽的手段,业界把这形容为“移动计算比移动数据更经济”。
3、HDFS 存储的机制
Hadoop 的分布式文件系统HDFS 是建立在Linux 文件系统之上的一个虚拟分布式文件系
统,它由一个管理节点( NameNode )和N 个数据节点( DataNode )组成,每个节点均是一台
普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,
复制,删除文件,查看文件内容等。但其底层实现上是把文件切割成 Block (块),然后这
些 Block 分散地存储于不
您可能关注的文档
- GIS在城市综合交通信息平台的应用.pdf
- GIS在供排水管网系统模拟和管理中的应用.pdf
- GNSS卫星信号转发器说明书.pdf
- Google Android智能手机开发培训.pdf
- Google Protocol Buffer (PB)简明入门.pdf
- GPRS∕GSM通信技术及软件平台在水利数据遥测中.pdf
- GPS导航程序FPGA设计说明.pdf
- GPS信号捕获跟踪.pdf
- GPS原理讲座-聂桂根.pdf
- GPS智能巡检系统在自来水管网巡检中的应用.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)