一种异构环境下的Hadoop调度算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
 一种异构环境下的 Hadoop 调度算法 梁建武,周杨* (中南大学信息科学与工程学院,长沙 410075) 5 10 15 20 25 30 35 40 摘要:MapReduce 作为一种重要的大规模数据并行程序模型已经越来越广泛的应用于 web 索 引,数据挖掘以及科学仿真等方面。作为 MapReduce 的开源实现,Hadoop 的性能依赖于它 的任务调度机制。本文提出了一种异构环境下的 Hadoop 调度算法,估计任务的完成时间, 以及时使用调度算法,从而减小任务响应时间,提高 MapReduce 性能。 关键词:MapReduce;Hadoop;异构环境 中图分类号:TP399 A scheduler algorithm of Hadoop in heterogeneous environments Liang Jianwu, Zhou Yang (Central South University of Institute of information science and technology, ChangSha 410075) Abstract: MapReduce is emerging as an important programming model for large-scale data-parallel application such as web indexing, data mining, and scientific simulation. As an open-source implementation of MapReduce, Hadoop’s performance is closely dependent on its task scheduler. We design a new Hadoop scheduling algorithm for heterogeneity, estimate the time of task completed, reduces task response time and improves MapReduce’s performance. Keywords: MapReduce; Hadoop; heterogeneous 0 引言 现在大部分互联网服务都拥有数百万的用户,这些服务所产生的海量数据促进了人们对 并行处理的研究兴趣。典型的例子有 Google 使用其自身的 MapReduce 框架每天处理 20petabyts 数据[1]。此外,每个 web 应用都会对用户的每次操作生成相应的系统日志,是开 发者和操作者诊断问题的主要资源。 Google 的 MapReduce 模型是一种分布式并行框架,适用于普通配置计算机组成的集群。 Hadoop 作为其开源应用,最初由 Yahoo 开发,使用于 10000 个计算机内核上 TB 级数据的 处理[2]。现在 Hadoop 已经广泛的应用于 Facebook 和亚马逊。除此之外,Maryland 大学和 PARC 开始将 Hadoop 使用于地震模拟和 web 数据挖掘领域[3]。 MapReduce 的优势之一在于其解决失败以及容错机制对于用户透明化,不需要用户的 参与。当节点崩溃的情况下,MapReduce 将其运行的任务分配给其他节点继续运行。类似 的,如果节点是可用的但其性能低下时,这些低性能机器上处理的任务我们称之为掉队者, MapReduce 会在另外的一个节点运行一个推测执行任务(即备份任务)以更快的完成计算。 我们将这种机制称为推测执行。Hadoop 中判断掉队者的方法为将每个任务的进度与平均进 度进行比较。这种方法在均匀的环境中改善了系统性能,但是一旦其前提假设的条件不存在 时,它的性能则会大幅度的下降。 为了解决上述问题,本文设计了一种改良的自适应负载调节调度算法(SALS)以提升 系统性能,减少 Hadoop 的响应时间。文章第 2 节介绍了 Hadoop 调度算法及其假设条件.第 3 节着重介绍了 SALS 算法。第 4 节在不同的环境中测试并分析 SALS 的性能。最后在第 5 节中对全文进行总结。 作者简介:梁建武, 1964-),男,副教授,主要研究领域为计算机通信,网络安全等。E-mail: 4792935@ -1-  1 已有的 Hadoop 调度算法 当一个节点有一个空任务槽时,Hadoop 会从以下三种类别中选择任务分配。第一:任 45 意一个被赋予最高优先级的失败的任务。这是为了防止某个任务因为故障而反复执行失败。 第二:没有运行的任务。对于 map 阶段来说 ,需要使用节点本地数据的任务优先选择。第 三:执行推测机制的任务[4]。

文档评论(0)

baihuamei + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档