营销Hadoop集群作业的调度研究.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop集群作业的调度研究

Contents Hadoop和MapReduce简介 1 Hadoop的集群作业调度原理 2 如何编写自己的Hadoop调度器 4 结论与展望 5 Hadoop的集群作业调度算法 3 Company Logo 展望 由于Hadoop使用了唯一的JobTracker进行作业调度的Hadoop MapReduce计算架构而言,大量用户提交的大量作业以及大规模的TaskTracker分布必将给JobTracker带来繁重的工作压力,因此在其上运行的调度算法一定不能过于复杂,这也是为什么FIFO算法始终还没有被遗弃的原因之一。当前,Hadoop MapReduce的这一结构特征已经成为研究领域争论非常激烈的话题,因为它直接影响到了Hadoop集群的可用性:一旦JobTtracker失效或者宕机,那么整个集群将崩溃。围绕这个话题,很多关于Hadoop高可用性的方案被提出,其中不少方案都建议增加多个JobTracker作为备份节点。因此今后的Hadoop集群的作业调度可能由多个JobTracker协同完成,那么相关的分布式JobTracker进行作业调度和资源管理的算法也将是一个研究重点。 Company Logo 保证最小共享量:除公平共享,公平调度算法还能为资源池设定其所需的最小共享量,管理员可以给每个pool配置一个最小共享量,调度器在分配资源时,需要保证每个pool中的作业获取该数目的资源。这样确保用户或应用程序总能获取足够的资源,由此可以提高整个系统的资源利用率。 支持时间片抢占:公平调度器支持抢占,如果一个池在一定时间内未得到公平地资源分配,调度器就会终止池中得到过多资源的任务,将集群资源让给此资源池。 限制作业并发量,防止中间数据塞满硬盘:公平调度算法调度运行所有用户作业,但也可以限定每个资源池中最大并发作业数和每个用户最多提交作业数。如果一次性运行大作业,会导致产生过多的中间记录信息以及过多的上下文切换,这都会影响到作业执行的性能。超过数量的作业将在调度队列中等待,直到一些资源池的早期作业完成。每个资源池对作业的调度方式可以配置,支持两种调度策略,分别为FIFO和公平调度。 动态调整各个资源池的资源量:当集群中存在多个资源池时,某些资源池的资源可能用不了,这时调度器会自动将这些资源池中的剩余资源共享给其它所需要的资源池,其它这些资源获取的共享资源多少主要由资源池权重决定,权重越大,获取的资源越多,一个资源池的最小共享量加上其获取的共享资源就是公平共享量。 Company Logo 公平调度器的实现—基本概念 Pool:资源池,或者作业池。 每个pool里有一定量的资源(CPU、内存、网络IO,磁盘等,这些由管理员配置),每个用户属于某个pool,其作业可使用这个pool中的资源,可限定每个pool中最大并发作业数和每个用户最多提交作业数。默认情况下,一个linux用户对应一个pool,而管理员也可以配以一个linux group对应一个pool。pool实际上也可以称为group或者队列。 最小共享量:管理员可给每个pool配置一个最小共享量,调度器在分配资源时,需要保证每个pool中的作业至少获取该数目的资源。一个常见的应用场景是,对产品pool设置最小共享量,而测试pool不设置,这样,当可用资源有限时时,优先保证产品pool有资源可用。 公平共享量:当集群中存在多个pool时,某些pool中的资源可能用不了,这时候调度器会自动将这些pool中剩余的资源共享给其他需要的pool,其他这些pool获取的共享资源多少主要由其pool weight决定,pool weight越大,获取的资源越多。 一个pool的最小共享量加上其获取的共享资源数目,就是公平共享量。 Company Logo 公平调度器的实现—算法实现 最简单的实现公平共享的方法如下:任何时候当一个slot空闲时,把它分配给运行着最少任务的资源池。这可以保证所有的pool得到相同数量的slot,除非这个pool的需求量(调度器想要执行任务数,等于已经运行的任务数+尚未启动的任务数)比其得到的公平共享量小,这时,该pool多余的slot将会分配给其它pool中。下面介绍公平调度器的两个特性,这两个特性使得公平共享算法简单了一些。 1、pool的权重代表了某个pool能得到slot数量多少的能力。比如,权重为2的pool能得到的slot数量是权重为1的pool的2倍。 2、公平共享量低于其最小共享量的pool优先得到空闲的slot 比较器对job或pool首先按照公平共享量低于最小共享量的差额进行排序,按照然后再r

文档评论(0)

ranfand + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档