- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
摘 要
Spark 作为一种基于内存的分布式计算框架,已经广泛应用于大数据处理系统中。它延续
了Hadoop MapReduce 的计算模型,但是其采用了基于内存的弹性分布式数据集RDD 来进行
数据处理,有效地避免了Hadoop MapReduce 计算过程中的大量磁盘I/O 操作,提高了系统执
行性能。然而目前的Spark 在Shuffle 过程中仍然存在着不足:(1)Shuffle Write 阶段中的分
区倾斜问题; (2 )Shuffle Read 阶段中的计算节点负载不均衡问题。本文针对目前Spark 计
算系统中存在的不足,对Spark Shuffle 过程中的任务执行优化技术进行研究。
首先,针对 Shuffle Write 阶段中的分区倾斜问题,本文提出了一种Spark 均衡数据分区
器BSPartitioner (Balanced Spark Partitioner )。通过深入分析Shuffle Write 阶段的中间数据分
区特性,建立了Spark Shuffle 中间数据均衡分区模型,该模型以最小化分区倾斜度为目标,
寻找一种Shuffle 中间数据均衡分区策略。基于该模型,本文设计并实现了BSPartitioner 数据
均衡分区算法,该算法通过将Shuffle 中间数据均衡分区问题转换为经典的List-Scheduling 任
务调度问题,有效地实现了Shuffle 中间数据的均衡分区,提高了Spark 计算系统的执行性能。
其次,针对 Shuffle Read 阶段中的计算节点负载不均衡问题,本文提出了一种基于代价
的Shuffle Read Partition 放置算法SPOC (Spark Shuffle Partition Placement Based on Cost )。
通过将 Shuffle Read 阶段的Partition 放置问题转换为计算节点负载均衡问题,建立了计算节
点负载均衡模型,该模型以最小化计算节点间的最大工作负载为目标,寻找一种实现计算节
点负载均衡的 Partition 放置策略。基于该模型,SPOC 算法采用两阶段优化的方式获取一种
适宜的Partition 放置策略,从而保证 Shuffle Read 阶段中计算节点负载均衡,进一步提高了
Spark 计算系统的执行性能。
最后,基于本文的研究工作对Spark 开源计算系统进行了二次开发,搭建了Spark 计算集
群并使用基准测试工具TPC-D 生成不同数据倾斜度和数据量的测试数据进行实验分析,多组
实验验证了本文研究工作的可行性和有效性。
关键字:Hadoop ;Spark;Shuffle;分区倾斜;基于代价的优化
I
ABSTRACT
ABSTRACT
As a memory-based distributed computing framework, Spark has been widely used in big data
processing systems. Spark adopts the Hadoop MapReduce computing model, but it uses RDD for
data processing, effectively avoiding a large number of disk I/O operations in computing process,
imporving the system performance. However, Spark still has some shortcomings in the Shuffle phase :
(1) the Partition skew problem in the Shuffle Write phase; (2) the node load skew problem in the
Shuffle Read phase. In view of the shortcomings in Spark, this disserta
您可能关注的文档
最近下载
- 论 自由 精品读本.pdf
- 医疗器械质量管理体系文件.pptx
- 金融中心施工总承包工程项目特色与观摩亮点介绍.pptx
- 小学数学六年级上册期中易错题重难点试卷含详细答案解析1524.docx
- 做自己的心理医生【26页】.pptx
- Module 4 单元整体教学设计 外研版(三起)六年级上册英语.docx
- 环球金融中心项目专项测量放线施工方案.docx
- 环球金融中心项目施工总承包工程质量创优策划.ppt
- 鼎信JB-QT-TS3200火灾报警控制器(联动型)安装使用说明书 XF2.900.029AS Ver.pdf VIP
- 中华护理学会团体标准TCNAS 21─2021解读:胰岛素皮下注射(1).pptx
文档评论(0)