基于MapReduce集群的加权公平队列调度算法研究.docVIP

下载本文档

7
0
约6.79千字
约 10页
2018-03-16 发布于北京
举报
版权申诉

基于MapReduce集群的加权公平队列调度算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于MapReduce集群的加权公平队列调度算法研究　　摘要：该文针对Hadoop自带的MapReduce调度器的不足，提出了具有优先级和权重的公平调度算法。算法可以清楚地区分出用户服务的等级，同时又保证一定程度的公平性，保证不至于被少量高优先级用户占有系统绝大部分资源。同时可以更好的实现数据的本地性，提高系统的整体效率和并行度，从而减小相应时间，避免节点闲置，浪费系统资源。　　关键词：MapReduce；Hadoop；加权轮转调度；公平调度　　中图分类号：TP309文献标识码：A文章编号：1009-3044(2011)09-2129-04 　　Degin and Implementation Priority Based Weighted Fair Queue of Based on MapReduce Cluster 　　KAI Hua-dong, TIAN Qi 　　(School of Information Science and Engineering, Central South University, Changsha 410083, China) 　　Abstract: This paper proposes a degin and implementation priority based Weighted Fair Queue of based on MapReduce clusters ,according to drawbacks of Hadoops MapReduce scheduler. It can clearly distinguish the level of customer service,while ensuring a degree of fairness and high priority was not subject to a small majority of users sharing system resources. It can achieve better data locality, improve the performance of the system and parallel access , and setting the appropriate for users and weight to ensure special tasks ,according to the mathematical model. 　　Key words: MapReduce; Hadoop; PBWFR; Fair Schedule 　　Hadoop是Apache开发的MapReduce开源框架，其核心设计由Google提出的MapReduce编程模型和分布式存储文件系统HDFS。MapReduce 主要用于大规模数据集的并行计算，已被Yahoo!成功的应用，但是系统的需求各异和作业的工作模式的不同，Map reduce的任务调度不能满足实际业务的需要，如Hadoop默认的调度策略是先进先出(FIFO)的，虽然FIFO保证了稳定性，但这种调度方式无法区分作业的优先级，不能保证高优先级得服务等级，目前通常使用的调度方法有PQ(优先级队列)调度、WRR(轮询调度)调度，但都有自身的局限性，PQ针对主要业务设计，优先处理高优先级的作业，在特例的情况下，低优先级作业长时间得不到调度。与此同时，WRR克服了PQ的不公平性，队列被分为多种级别，每个队列按照一定的规则轮询执行。但是，WRR却没有解决高优先级低时延的要求，因此本文在考虑作业等级与公平调度的基础上，提出新的算法。　　1 MapReduce工作原理　　1.1 MapReduce作业的运行　　MapReduce是Google提出的一个软件架构，用于大规模数据集的并行运算。概念“Map（映射）”和“Reduce（化简）”，和他们的主要思想，都是从函数式编程语言借来的，还有矢量编程语言借来的特性。　　当前软件实现是指一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（化简）函数，用来保证所有映射的键值对中的每一个共享相同的键组。　　在MapReduce框架中，用户提交的作业称为Job,每个Job会被分成很多数据集InputSplit，每个InputSplit将由一个Mapper负责处理。此外InputFormat中还提供一个RecodReader的实现，RecordReader将一个InputSplit解析成对，有了，就可以开始Map操作。Map后会产生很多中间结果，先对这些结果按照key值排序，这时可以利用用户提供的combine函数将结果进行一次合并