一种异构环境下的Hadoop调度算法.docVIP

下载本文档

76
0
约 6页
2017-09-22 发布于安徽
举报
版权申诉

一种异构环境下的Hadoop调度算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种异构环境下的 Hadoop 调度算法梁建武，周杨* （中南大学信息科学与工程学院，长沙 410075） 5 10 15 20 25 30 35 40 摘要：MapReduce 作为一种重要的大规模数据并行程序模型已经越来越广泛的应用于 web 索引，数据挖掘以及科学仿真等方面。作为 MapReduce 的开源实现，Hadoop 的性能依赖于它的任务调度机制。本文提出了一种异构环境下的 Hadoop 调度算法，估计任务的完成时间，以及时使用调度算法，从而减小任务响应时间，提高 MapReduce 性能。关键词：MapReduce；Hadoop；异构环境中图分类号：TP399 A scheduler algorithm of Hadoop in heterogeneous environments Liang Jianwu, Zhou Yang (Central South University of Institute of information science and technology, ChangSha 410075) Abstract: MapReduce is emerging as an important programming model for large-scale data-parallel application such as web indexing, data mining, and scientific simulation. As an open-source implementation of MapReduce, Hadoop’s performance is closely dependent on its task scheduler. We design a new Hadoop scheduling algorithm for heterogeneity, estimate the time of task completed, reduces task response time and improves MapReduce’s performance. Keywords: MapReduce; Hadoop; heterogeneous 0 引言现在大部分互联网服务都拥有数百万的用户，这些服务所产生的海量数据促进了人们对并行处理的研究兴趣。典型的例子有 Google 使用其自身的 MapReduce 框架每天处理 20petabyts 数据[1]。此外，每个 web 应用都会对用户的每次操作生成相应的系统日志，是开发者和操作者诊断问题的主要资源。 Google 的 MapReduce 模型是一种分布式并行框架，适用于普通配置计算机组成的集群。 Hadoop 作为其开源应用，最初由 Yahoo 开发，使用于 10000 个计算机内核上 TB 级数据的处理[2]。现在 Hadoop 已经广泛的应用于 Facebook 和亚马逊。除此之外，Maryland 大学和 PARC 开始将 Hadoop 使用于地震模拟和 web 数据挖掘领域[3]。 MapReduce 的优势之一在于其解决失败以及容错机制对于用户透明化，不需要用户的参与。当节点崩溃的情况下，MapReduce 将其运行的任务分配给其他节点继续运行。类似的，如果节点是可用的但其性能低下时，这些低性能机器上处理的任务我们称之为掉队者， MapReduce 会在另外的一个节点运行一个推测执行任务（即备份任务）以更快的完成计算。我们将这种机制称为推测执行。Hadoop 中判断掉队者的方法为将每个任务的进度与平均进度进行比较。这种方法在均匀的环境中改善了系统性能，但是一旦其前提假设的条件不存在时，它的性能则会大幅度的下降。为了解决上述问题，本文设计了一种改良的自适应负载调节调度算法（SALS）以提升系统性能，减少 Hadoop 的响应时间。文章第 2 节介绍了 Hadoop 调度算法及其假设条件.第 3 节着重介绍了 SALS 算法。第 4 节在不同的环境中测试并分析 SALS 的性能。最后在第 5 节中对全文进行总结。作者简介：梁建武， 1964-），男，副教授，主要研究领域为计算机通信，网络安全等。E-mail: 4792935@ -1- 1 已有的 Hadoop 调度算法当一个节点有一个空任务槽时，Hadoop 会从以下三种类别中选择任务分配。第一：任 45 意一个被赋予最高优先级的失败的任务。这是为了防止某个任务因为故障而反复执行失败。第二：没有运行的任务。对于 map 阶段来说，需要使用节点本地数据的任务优先选择。第三：执行推测机制的任务[4]。