动态标签匹配DLMS调度器设计和实现.docVIP

下载本文档

2
0
约7.27千字
约 14页
2018-10-08 发布于福建
举报
版权申诉

动态标签匹配DLMS调度器设计和实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

动态标签匹配DLMS调度器设计和实现

动态标签匹配DLMS调度器设计和实现　　摘要：针对Hadoop集群节点性能差异大、资源分配随机、执行时间过长的问题，提出一种将节点性能标签（简称节点标签）和作业类别标签（简称作业标签）进行动态匹配的调度器。节点初始分类并赋予原始节点标签，节点检测自身性能指标生成动态节点标签，作业根据部分运行信息进行分类并生成作业标签，资源调度器将节点资源分配给对应标签的作业。实验结果表明，相对于YARN中自带的调度器，其在作业执行时间上有很大缩短。　　关键词：Hadoop；资源调度器；动态匹配；动态标签　　DOI：10.11907/rjdk.171392 　　中图分类号：TP319 文献标识码：A 文章编号：1672-7800（2017）009-0095-05 　　Abstract：In order to solve the problem of big performance difference， random resource allocation， and long time execution in Hadoop cluster nodes，this paper propose a scheduler which allocates the Node Performance Label（NPL） and Job Category Label（JCL） dynamically.The node makes the classification of initialization and is assigned original node label. The node detects its own performance metrics to generate dynamic node labels. The job is classified based on part of the run information to generate the job label. The resource scheduler assigns the node resource to the corresponding label job. The experimental results shows that the scheduler has a certain degree of shorten in the time of job execution compared with one that comes with YARN. 　　Key Words：hadoop； scheduler； dynamic matching； dynamic label 　　0 引言　　早期Hadoop版本由于?⒆试吹鞫裙芾砗?MapReduce框架整合在一个模块中，导致代码的解耦性较差，不能较好地进行扩展，不支持多种框架。Hadoop开源社区设计实现了一种全新架构的新一代Hadoop系统，该系统为Hadoop2.0版本，将资源调度抽取出来构建了一个新的资源调度框架，即新一代的Hadoop系统YARN。众所周知，在某一确定的环境下，合适的调度算法能够在满足用户作业请求的同时，有效提升Hadoop作业平台的整体性能和系统资源利用率。在YARN中默认自带3种调度器：先入先出（fifo）、公平调度器（Fair Scheduler）和计算能力调度器（Capacity Scheduler）。Hadoop默认采用fifo调度器，该算法采用先进先出的调度策略，简单易实现，但是不利于短作业的执行，不支持共享集群和多用户管理；由Facebook提出的公平调度算法考虑了不同用户与作业资源配置需求的差异，支持用户公平共享集群的资源，但是作业资源的配置策略不够灵活，容易造成资源浪费，并且不支持作业抢占；雅虎提出的计算能力调度算法支持多用户共享多队列，计算能力灵活，但是不支持作业抢占，易陷入局部最优[1-2]。　　然而在企业生产中，随着企业数据量的加大，每年集群都会加入一些新节点，但是集群节点的性能差异很显著，这种异构集群在企业生产环境中很普遍。设想如果将一个计算量很大的机器学习任务分配在CPU计算能力很差的机器节点上，显然会影响作业的整体执行时间。Hadoop自带的3种资源调度器并没有很好地解决该问题。本文提出一种节点性能和作业类别标签动态匹配的资源调度算法（DLMS），将CPU性能较好的机器贴上CPU标签，将磁盘IO性能较好的机器贴上IO标签或者是两者都一般的普通标签。作业根据分类可以贴上CPU标签、IO标签任务或者普通标签，然后进入不同的标签队列，调度器尽可能将相应标签节点的资源分配给相应的标签作业，从而减少作业运行时间，提高系统资源利用率，