带不可移动数据的Spark任务调度.pdf

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘 要 由于单个数据中心的资源有限,复杂的Spark 工作流应用需要在多个数据中心内执 行。当输入数据太大而无法传输(不可移动数据)时,依赖该数据的Task 只能被分配 在该数据所在的数据中心执行,然而Spark 并不能保证这一分配。另一方面,Spark 提 供的基于同构的调度策略并不适合于异构环境。本文研究异构多数据中心下带不可移 动数据的Spark 任务调度问题,以优化Spark 工作流应用的完工时间为目标,具有重要 实际意义和应用前景。该问题面临的挑战主要包括两方面:(1)部分依赖不可移动数 据的任务只能被分配在特定的数据中心执行,这类任务和其它任务在该数据中心的资 源竞争将对完工时间造成不利影响;(2)Spark 工作流应用的可选Stage 调度序列数量 巨大,且异构多数据中心环境下关键路径无法获得,很难找到合适的Stage 调度序列来 优化完工时间。 针对所考虑的问题,本文提出了一种基于规则的任务调度算法(STSID)。该算法 分为时间参数估计和Stage 分配两个阶段。时间参数估计阶段提出了两种Node 速率估 计方式,根据估计的Stage 执行时间求出Stage 的各个时间参数。Stage 分配阶段分为 Stage 选择、资源分配和添加就绪Stage 三部分。第一部分从就绪Stage 集合中选择优 先级最高的Stage,采用的优先级规则是:依赖不可移动数据的Stage 优先级高于其他 Stage,对于其他Stage 则提出了ESTF (开始时间早的Stage 优先)、SFTF (浮动时间短 的Stage 优先)和RANDOM (随机排序)三种优先级规则。第二部分提出三种Stage 调 度算法,分别基于Node 最早可用时间优先、Task 最早完工时间优先和最小资源浪费优 先来调度Stage 下的Task。第三部分则将就绪Stage 添加到Stage 就绪集合中。 为验证所提算法的性能,本文采用多因素方差分析技术(ANOVA)对相关参数进 行校正,并选择对于解决本文提出的问题的最合适的参数。然后将STSID 与Spark 提 供的FIFO 和FAIR 算法进行比较。实验结果表明,本文所提出的算法在不同Job 数量 的工作流实例下和不同Node 数量数据中心中的性能优于FIFO 和FAIR。 关键: Spark,异构节点,不可移动数据,任务调度 Abstract Abstract Due to the limited resources of a single data center, complex Spark workflow applications need to be executed in multiple data centers. When the input data is too large to be transferred (immovabledata),tasksthatdependonthesedatacancanonlybeassignedtothedatacenterthat containstheirinputdata. Ontheotherhand,thetaskschedulingmethodsprovidedbySparkare notsuitableforheterogeneousenvironment. Thisthesisconsiderstheproblemofschedulingthe Sparkworkflowapplicationwithpartialimmovableinputdatatoheterogeneousdatacentersfor minimizingthecompletiontimeoftheSparkworkflowapplication. Thisproblemisofimportant practicalsignificance. Thechallengesofthisproblemmainlyincludethefollowingtwoaspects: (i)tasksthatneedimmovabledatacanonlybeassignedtospecificdatacenters,andther

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档