MapReduce异构的环境下调度优化综述.docVIP

下载本文档

6
0
约6.22千字
约 11页
2018-10-11 发布于福建
举报
版权申诉

MapReduce异构的环境下调度优化综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MapReduce异构的环境下调度优化综述

MapReduce异构的环境下调度优化综述　　摘要：MapReduce作为一个分布式并行计算框架，在大数据处理方面得到了广泛的应用。该计算框架在同构集群环境中能够高效地运行，但是在异构集群环境中原容错算法不能正确地检测慢速任务，导致了性能的大幅下降。该文针对这一现象，分析了问题的主要原因，并且介绍了现存的几个优化算法，即Longest Approximate Time to End（LATE）算法，Self-Adaptive MapReduce（SAMR）算法，Enhanced Self-Adaptive MapReduce（ESAMR）算法，比较了各个算法的优缺点，最后指出了未来的研究方向。　　关键词：MapReduce；调度算法；优化；容错性；推测性执行　　中图分类号：TP316.4 文献标识码：A 文章编号：1009-3044（2015）01-0051-03 　　Survey on MapReduce Scheduling Algorithms in Heterogeneous Environments 　　WANG Li-Sheng，WEI Wei 　　（Department of Electronic and Information Engineering， Tongji University， Shanghai 201804， China）　　Abstract： As a parallel programming model， MapReduce is widely used to process large data sets on a cluster. The current MapReduce implementation works effectively in homogeneous environment， but has a poor performance due to the static method used to detect stragglers. This paper discusses how the heterogeneity affects the MapReduce performance and surveys some of the approaches that have been designed to improve the MapReduce performance in heterogeneous environments. Advantages and disadvantages of these algorithms are identified. 　　Key words： MapReduce； scheduling algorithms； optimization； fault tolerance； speculative execution 　　1 概述　　近年来，随着互联网技术的迅猛发展，越来越多的网络应用需要进行大数据的处理和存储。为了满足计算需求，计算资源逐渐由单机多核发展为集群众核。MapReduce[1， 2]是由Google提出的一个用于海量数据处理的分布式并行计算框架，在大数据处理方面得到了业内的广泛认可。大多数互联网公司都使用MapReduce来处理大数据的查询响应以及数据挖掘工作。　　MapReduce框架最初被设计在同构环境中运行，即各检点的计算性能、存储容量、存储速度和网络带宽是相近的。MapReduce在进行输入数据划分、集群任务调度和容错性处理时，也都是基于同构环境的性质做出决策。但是随着集群规模的扩展，保持所有节点都属于同一机型是相当困难的事，所以MapReduce框架也可能会被部署在异构环境中，即各节点的计算性能、存储速度等方面存在较大的差异。　　由于最初设计时没有充分考虑异构环境的运行情况，MapReduce在异构环境中的性能并不理想。针对这一问题，国内外的一些学者分析了MapReduce性能下降的原因，并且提出了一些异构环境下的改进算法。该文通过对这些算法进行分析，总结出各个算法的优缺点，希望以此作为相关技术人员的参考。　　2 MapReduce框架介绍　　2.1 MapReduce工作原理　　将海量数据分成较小的数据块，分发到各个节点并行处理。对用户而言，任务在分布式集群中的调度过程是透明的。用户只需要实现Map函数和Reduce函数即可，其中，Map函数处理输入的键值对（key/value），并生成一组临时的键值对，发送给Reduce函数进行处理；Reduce函数处理临时键值对，生成最终结果写到分布式文件系统。Map函数和Reduce函数的并行调度由MapReduce框