Hadoop基本概念与架构.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
YARN资源调度器—Capacity Scheduler app11 按到达时间排序,先来先服务 app12 app13 app14 app15 app16 app21 app22 app23 app24 app25 app31 app32 app33 app34 app35 app36 app37 queueA queueB queueC 100 memory (20%, 15) (50%, 25) (30%, 25) YARN资源调度器—Fair Scheduler 由Facebook开源的,共享集群调度器 以队列方式组织作业 基于最小资源量(min share)与公平共享量(fair share)进行调度 作业优先级越高,分配到的资源越多 YARN资源调度器—Fair Scheduler job11 优先级越大,获得的资源越多 job12 job13 job14 job15 job16 job21 job22 job23 job24 job25 job31 job32 job33 job34 job35 job36 job37 queueA queueB queueC YARN资源隔离机制 支持内存和CPU两种资源隔离 内存是一种“决定生死”的资源 CPU是一种“影响快慢”的资源 内存隔离 基于线程监控的方案 基于Cgroups的方案 CPU隔离 默认不对CPU资源进行隔离 基于Cgroups的方案 以YARN为核心构建服务体系 MapReduce是什么 源自于Google的MapReduce论文 发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 MapReduce不擅长什么 实时计算 像MySQL一样,在毫秒级或者秒级内返回结果 流式计算 MapReduce的输入数据集是静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的 DAG计算 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出 初识MapReduce MapReduce编程模型 Split 0 Split 1 Split 2 Split 3 Mapper Read (Inputformat) Mapper Read (Inputformat) Mapper Read (Inputformat) Mapper Read (Inputformat) a 1 b 1 Partitioner c 1 c 1 Partitioner a 1 c 1 Partitioner b 1 b 1 Partitioner Shuffle Sort a 1 a 1 Reducer b 1 b 1 Reducer b 1 c 1 c 1 Reducer c 1 Part-0 Part-1 Part-2 Map 阶段 Write (Outputformat) Write (Outputformat) Reduce 阶段 Shuffle Sort Shuffle Sort HDFS HDFS Map Task Reduce Task Write (Outputformat) MapReduce编程模型 MapReduce编程模型 Map阶段 InputFormat(默认TextInputFormat) Mapper Combiner(local reducer) Partitioner Reduce阶段 Reducer OutputFormat(默认TextOutputFormat) MapReduce 1.0架构 MapReduce 1.0架构 Master 管理所有作业 将作业分解成一系列任务 将任务指派给TaskTracker 作业/任务监控、错误处理等 JobTracker TaskTrackers Slave 运行Map Task和Reduce Task 与JobTracker交互,执行命令,并汇报任务状态 MapReduce 1.0架构 Map引擎 解析每条数据记录,传递给用户编写的map() 将map()输出数据写入本地磁盘(如果是map-only作业,则直接写入HDFS) Map Task Reduce Task Reduce引擎 从Map Task上远程读取输入数据 对数据排序 将数据按照分组传递给用户编写的reduce() MapReduce 2.0架构 MapReduce 2.0架构 Client 与MapReduce 1.0的Client类似,用户通过Client与YARN交互,提交MapReduce作业,查询作业运行状态,管理作业等。 MRAppMaster 功能类似

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档