Spark任务执行优化技术研究.pdf

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘 要 Spark 作为一种基于内存的分布式计算框架,已经广泛应用于大数据处理系统中。它延续 了Hadoop MapReduce 的计算模型,但是其采用了基于内存的弹性分布式数据集RDD 来进行 数据处理,有效地避免了Hadoop MapReduce 计算过程中的大量磁盘I/O 操作,提高了系统执 行性能。然而目前的Spark 在Shuffle 过程中仍然存在着不足:(1)Shuffle Write 阶段中的分 区倾斜问题; (2 )Shuffle Read 阶段中的计算节点负载不均衡问题。本文针对目前Spark 计 算系统中存在的不足,对Spark Shuffle 过程中的任务执行优化技术进行研究。 首先,针对 Shuffle Write 阶段中的分区倾斜问题,本文提出了一种Spark 均衡数据分区 器BSPartitioner (Balanced Spark Partitioner )。通过深入分析Shuffle Write 阶段的中间数据分 区特性,建立了Spark Shuffle 中间数据均衡分区模型,该模型以最小化分区倾斜度为目标, 寻找一种Shuffle 中间数据均衡分区策略。基于该模型,本文设计并实现了BSPartitioner 数据 均衡分区算法,该算法通过将Shuffle 中间数据均衡分区问题转换为经典的List-Scheduling 任 务调度问题,有效地实现了Shuffle 中间数据的均衡分区,提高了Spark 计算系统的执行性能。 其次,针对 Shuffle Read 阶段中的计算节点负载不均衡问题,本文提出了一种基于代价 的Shuffle Read Partition 放置算法SPOC (Spark Shuffle Partition Placement Based on Cost )。 通过将 Shuffle Read 阶段的Partition 放置问题转换为计算节点负载均衡问题,建立了计算节 点负载均衡模型,该模型以最小化计算节点间的最大工作负载为目标,寻找一种实现计算节 点负载均衡的 Partition 放置策略。基于该模型,SPOC 算法采用两阶段优化的方式获取一种 适宜的Partition 放置策略,从而保证 Shuffle Read 阶段中计算节点负载均衡,进一步提高了 Spark 计算系统的执行性能。 最后,基于本文的研究工作对Spark 开源计算系统进行了二次开发,搭建了Spark 计算集 群并使用基准测试工具TPC-D 生成不同数据倾斜度和数据量的测试数据进行实验分析,多组 实验验证了本文研究工作的可行性和有效性。 关键字:Hadoop ;Spark;Shuffle;分区倾斜;基于代价的优化 I ABSTRACT ABSTRACT As a memory-based distributed computing framework, Spark has been widely used in big data processing systems. Spark adopts the Hadoop MapReduce computing model, but it uses RDD for data processing, effectively avoiding a large number of disk I/O operations in computing process, imporving the system performance. However, Spark still has some shortcomings in the Shuffle phase : (1) the Partition skew problem in the Shuffle Write phase; (2) the node load skew problem in the Shuffle Read phase. In view of the shortcomings in Spark, this disserta

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档