Hadoop性能调优.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop性能调优

Capcity Scheduler一个关键问题 如何选择合适的作业去执行 为队列定义了一个指标—队列中正在运行的任务数与其应该分得的计算资源(配置文件中为此队列分配了相应数量的资源,而实际中该队列可能没有分配到)之间的比值。当系统中出现空闲的task tracker,算法会首先选择一个该比值最低的队列。 队列被选中后,将按照作业优先级(如果支持的话)和提交时间顺序选择执行的作业。 在选择作业的时候,还需要考虑作业所属的用户是否已经超出了他所能使用的资源限制。 此外,还会考虑task tracker内存资源是否满足作业的要求。 Capcity Scheduler内存管理 内存资源的有效管理 Capacity Scheduler能有效地对hadoop集群的内存资源进行管理,以支持内存密集型应用。 作业对内存资源需求高时,调度算法将把该作业的相关任务分配到内存资源充足的task tracker上。 在作业选择过程中,Capacity Scheduler会检查空闲task tracker上的内存资源是否满足作业要求。task tracker上的空闲资源(内存)数量值可以通过task tracker的内存资源总量减去当前已经使用的内存数量得到,而后者包含在task tracker向job tracker发送的周期性心跳信息中。 目前,基于内存的调度只能在linux平台下起作用,关于内存调度的相关参数可以通过配置文件来设置。 Capcity Scheduler的配置 安装 Capacity Scheduler包在contrib\ capacity-scheduler路径下,如hadoop-0.20.1-capacity-scheduler.jar ,将该jar文件复制到lib目录下。然后更改mapred-site.xml配置文件使hadoop使用此调度器。 配置文件 可以在配置文件mapred-site.xml中定义队列。 可以在Capacity Scheduler配置文件(conf/capacity-scheduler.xml)中设置每个队列的一系列属性以控制调度。 作业调度总结 Hadoop集群作业调度算法也是当前研究的热门,当前大量的设计与实现围绕着作业调度展开,以求优化集群性能。 然而,对于只有一个job tracker的hadoop框架来说,经常会出现大规模的作业提交和运行,在其上运行的调度算法一定不能过于复杂,否则将会给job tracker带来繁重的工作压力,一旦job tracker宕机,后果将不堪设想,这也是FIFO调度算法始终还没有被遗弃的原因之一。 究竟该如何调度作业必须视具体情况而定,在此方面的研究将是一个重点。 谢 谢 Hadoop性能调优 詹坤林 2010年4月 目录 Hadoop性能调优方法 Hadoop配置文件 Hadoop Job介绍 Hadoop作业调度 Hadoop性能调优方法 背景 Map/Reduce工作模型可扩展性高,具有很好的容错能力。 Hadoop运行在越来越多的集群上,性能优化逐渐成为一个重要的话题。 两种方法 从Hadoop配置文件入手,经历大量的实验,以求通过改变一些配置参数以提高Hadoop集群的性能。 从Hadoop作业调度入手,优化集群作业调度算法。 Hadoop配置文件 配置文件简介 Core-site.xml Hdfs-site.xml Mapred-site.xml 基于配置文件的性能调优总结 Hadoop配置文件简介 作用 大量实验证明,合理的配置会大大提高Hadoop集群的性能。 Hadoop有一个默认的配置(如0.19版),可是这并不适合所有集群。各个集群之间在机器和硬件上都存在或多或少的差别。每个Hadoop框架应该根据其独有的集群做配置优化。 配置文件的演变 早期版本中,配置文件是hadoop-default.xml和hadoop-site.xml。前者做了默认配置,用户需要配置时可以在后者中设置,hadoop启动时先加载后者。 随着hadoop代码量越来越庞大,Hadoop项目拆解成了三个部分进行独立开发,配置文件也分离开来。 0.20版本后,Hadoop将配置文件更改为core-site.xml、hdfs-site.xml和mapred-site.xml,但是相关参数未做改变。这些文件默认情况下未设定任何参数。 Hadoop配置文件在conf目录下 Core-site.xml 介绍 Hadoop Core is renamed Hadoop Common. MapReduce and the Hadoop Distributed File System (HDFS) are now separate

文档评论(0)

整理王 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档