Hadoop基本概念与架构.ppt

下载文档 降价啦

7
0
约6.15千字
约 54页
2019-07-09 发布于山东
举报
版权申诉
保障服务

Hadoop基本概念与架构.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

YARN资源调度器—Capacity Scheduler app11 按到达时间排序，先来先服务 app12 app13 app14 app15 app16 app21 app22 app23 app24 app25 app31 app32 app33 app34 app35 app36 app37 queueA queueB queueC 100 memory (20%, 15) (50%, 25) (30%, 25) YARN资源调度器—Fair Scheduler 由Facebook开源的，共享集群调度器以队列方式组织作业基于最小资源量(min share)与公平共享量(fair share)进行调度作业优先级越高，分配到的资源越多 YARN资源调度器—Fair Scheduler job11 优先级越大，获得的资源越多 job12 job13 job14 job15 job16 job21 job22 job23 job24 job25 job31 job32 job33 job34 job35 job36 job37 queueA queueB queueC YARN资源隔离机制支持内存和CPU两种资源隔离内存是一种“决定生死”的资源 CPU是一种“影响快慢”的资源内存隔离基于线程监控的方案基于Cgroups的方案 CPU隔离默认不对CPU资源进行隔离基于Cgroups的方案以YARN为核心构建服务体系 MapReduce是什么源自于Google的MapReduce论文发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点易于编程良好的扩展性高容错性适合PB级以上海量数据的离线处理 MapReduce不擅长什么实时计算像MySQL一样，在毫秒级或者秒级内返回结果流式计算 MapReduce的输入数据集是静态的，不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的 DAG计算多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出初识MapReduce MapReduce编程模型 Split 0 Split 1 Split 2 Split 3 Mapper Read (Inputformat) Mapper Read (Inputformat) Mapper Read (Inputformat) Mapper Read (Inputformat) a 1 b 1 Partitioner c 1 c 1 Partitioner a 1 c 1 Partitioner b 1 b 1 Partitioner Shuffle Sort a 1 a 1 Reducer b 1 b 1 Reducer b 1 c 1 c 1 Reducer c 1 Part-0 Part-1 Part-2 Map 阶段 Write (Outputformat) Write (Outputformat) Reduce 阶段 Shuffle Sort Shuffle Sort HDFS HDFS Map Task Reduce Task Write (Outputformat) MapReduce编程模型 MapReduce编程模型 Map阶段 InputFormat（默认TextInputFormat） Mapper Combiner（local reducer） Partitioner Reduce阶段 Reducer OutputFormat（默认TextOutputFormat） MapReduce 1.0架构 MapReduce 1.0架构 Master 管理所有作业将作业分解成一系列任务将任务指派给TaskTracker 作业/任务监控、错误处理等 JobTracker TaskTrackers Slave 运行Map Task和Reduce Task 与JobTracker交互，执行命令，并汇报任务状态 MapReduce 1.0架构 Map引擎解析每条数据记录，传递给用户编写的map() 将map()输出数据写入本地磁盘（如果是map-only作业，则直接写入HDFS） Map Task Reduce Task Reduce引擎从Map Task上远程读取输入数据对数据排序将数据按照分组传递给用户编写的reduce() MapReduce 2.0架构 MapReduce 2.0架构 Client 与MapReduce 1.0的Client类似，用户通过Client与YARN交互，提交MapReduce作业，查询作业运行状态，管理作业等。 MRAppMaster 功能类似