外文翻译云计算中倾斜度感知的任务调度试题.doc

外文翻译云计算中倾斜度感知的任务调度试题.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2013Skew-Aware Task Scheduling in Clouds 云计算中倾斜度感知的任务调度 李东生,陈宜兴,理查德·胡亥 国防科技大学,计算机学院,并行与分布式处理国家实验室,中国国立大学 莱佛士商学院,新加坡  HYPERLINK mailto:dsli@ dsli@ 摘要:数据扭曲是MapReduce一样的云系统中慢任务出现的一个重要原因。在本文中,我们提出了一个斜感知任务调度(SATS)机制针对MapReduce类似系统的迭代应用。该机构利用迭代应用中在相邻迭代的数据分布的相似性,来减少数据扭曲造成的落伍的问题。它在当前迭代的任务的执行过程中收集数据的分布信息,并用这些信息来指导下一次迭代时任务的数据分割。我们在HaLoop系统落实机制,在一个集群中部署。实验结果表明,该机制可以处理数据扭曲,有效地提高负载平衡。 关键词:数据扭曲;任务调度;云计算;负载均衡 简介 近年来云计算已经成为一个有前途的技术,而且MapReduce是最成功的一个大规模数据密集型云计算的实现平台[1] - [3]。MapReduce的使用一个简单的数据并行的编程模型,有两个基本的操作,即,Map和Reduce操作。用户可以根据应用程序的要求自定义Map功能和Reduce功能。每个map任务取一片输入数据,并产生一个用Map功能的key/value对的集合,这是初步地用Reduce功能做Reduce任务。这种编程模型很简单,但功能强大,许多大规模数据处理应用程序可以由模型来表示。类MapReduce的系统可以在云计算中自动调度多个分布在机器中的Map和/或Reduce任务。作为同步步骤仅存在于Map阶段和Reduce阶段之间,任务执行在相同的阶段具有高平行度,并且因此并发性和系统的可扩展性可以被高度增强。 Hadoop[4]和它的变体(例如,HaLoop [5]和Hadoop++ [6])是典型的类MapReduce系统。 由于在类MapReduce系统中Map和Reduce阶段之间存在同步步骤,在任一阶段慢任务可能减慢整个工作的执行。这种慢任务在Map或Reduce阶段叫做落后者。当慢任务出来时,整个工作的执行时间会增加,而资源的使用会被减少。最近,有研究[7]-[8]显示该数据歪斜已经成为了在Map或Reduce阶段出现慢任务的一个主要原因。在许多科学计算和数据分析应用中,输入的数据或中间数据的数据倾斜可能会导致严重的负载不平衡的问题。例如,PageRank [9]用于大规模搜索工程是一种典型的执行在类MapReduce系统上的应用。该PageRank应用进行链接分析——通过反复迭代其周边邻居的权重,为在网页的链接图中的每个顶点/网页分配权重(等级)。研究[7],[8],[18]表明网页链接图的度是多倾斜的,一些顶点具有较大度的入边。由于MapReducelike系统[4]使用随机哈希算法进行分区中间数据到Reduce节点,节点代表着计算度较大的节点的权重的任务可能需要更多的时间来完成他们的任务,从而成为该系统的慢任务。而数据歪斜引起落伍问题已成为类似MapReduce的系统中一个重要研究课题。 在本文中,我们针对类似MapReduce的系统提出了一个倾斜度感知任务调度(SATS)机制。该SATS机制是基于观察到许多在类似MapReduce的系统中的应用是迭代计算[5],如PageRank[9],机器学习应用程序,递归关系查询和社会网络分析。在迭代应用程序中,数据被迭代处理,直到计算满足收敛或停止状态,并在计算时每个迭代可以是一个或多个MapReduce工作。数据在两个相邻的迭代之间可能有相似性,并且在相邻迭代的作业中的数据分布可能是相似的。如果数据的分布在一个MapReduce工作执行前能被获得,我们可以正确地划分数据到系统中的节点,以改善负载平衡。基于这样的思想,SATS机制被设计成利用相邻迭代中的数据分布的相似性,以减少数据扭曲造成的落伍问题。它收集在当前迭代的任务执行期间数据分布的信息,并使用该信息,引导下一个迭代时该数据的分布。由于数据偏移通常发生在MapReduce工作中的Reduce阶段,SATS机制重点在MapReduce工作中的Reduce阶段的落后者问题。 本文的主要贡献如下所示。首先,我们设计了一个倾斜感知任务调度机制,称作SATS,以处理在MapReduce类似系统中的迭代应用因数据倾斜造成的落后者问题。其次,我们实施SATS机制,建立基于HaLoop[5]的原型,一个开源的MapReducelike系统。最后,我们进行补偿实验来评估SATS机制,实验结果表明,这SATS可以有效地改善负载平衡。 本文的其余部分安排如下。第2节讨论了相关工作。第3节示出了设计和实施SATS机制。第4节通过实验评估

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档