- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
摘 要
Spark 作为一种基于内存的分布式计算框架,已经广泛应用于大数据处理系统中。它延续
了Hadoop MapReduce 的计算模型,但是其采用了基于内存的弹性分布式数据集RDD 来进行
数据处理,有效地避免了Hadoop MapReduce 计算过程中的大量磁盘I/O 操作,提高了系统执
行性能。然而目前的Spark 在Shuffle 过程中仍然存在着不足:(1)Shuffle Write 阶段中的分
区倾斜问题; (2 )Shuffle Read 阶段中的计算节点负载不均衡问题。本文针对目前Spark 计
算系统中存在的不足,对Spark Shuffle 过程中的任务执行优化技术进行研究。
首先,针对 Shuffle Write 阶段中的分区倾斜问题,本文提出了一种Spark 均衡数据分区
器BSPartitioner (Balanced Spark Partitioner )。通过深入分析Shuffle Write 阶段的中间数据分
区特性,建立了Spark Shuffle 中间数据均衡分区模型,该模型以最小化分区倾斜度为目标,
寻找一种Shuffle 中间数据均衡分区策略。基于该模型,本文设计并实现了BSPartitioner 数据
均衡分区算法,该算法通过将Shuffle 中间数据均衡分区问题转换为经典的List-Scheduling 任
务调度问题,有效地实现了Shuffle 中间数据的均衡分区,提高了Spark 计算系统的执行性能。
其次,针对 Shuffle Read 阶段中的计算节点负载不均衡问题,本文提出了一种基于代价
的Shuffle Read Partition 放置算法SPOC (Spark Shuffle Partition Placement Based on Cost )。
通过将 Shuffle Read 阶段的Partition 放置问题转换为计算节点负载均衡问题,建立了计算节
点负载均衡模型,该模型以最小化计算节点间的最大工作负载为目标,寻找一种实现计算节
点负载均衡的 Partition 放置策略。基于该模型,SPOC 算法采用两阶段优化的方式获取一种
适宜的Partition 放置策略,从而保证 Shuffle Read 阶段中计算节点负载均衡,进一步提高了
Spark 计算系统的执行性能。
最后,基于本文的研究工作对Spark 开源计算系统进行了二次开发,搭建了Spark 计算集
群并使用基准测试工具TPC-D 生成不同数据倾斜度和数据量的测试数据进行实验分析,多组
实验验证了本文研究工作的可行性和有效性。
关键字:Hadoop ;Spark;Shuffle;分区倾斜;基于代价的优化
I
ABSTRACT
ABSTRACT
As a memory-based distributed computing framework, Spark has been widely used in big data
processing systems. Spark adopts the Hadoop MapReduce computing model, but it uses RDD for
data processing, effectively avoiding a large number of disk I/O operations in computing process,
imporving the system performance. However, Spark still has some shortcomings in the Shuffle phase :
(1) the Partition skew problem in the Shuffle Write phase; (2) the node load skew problem in the
Shuffle Read phase. In view of the shortcomings in Spark, this disserta
您可能关注的文档
- 5G系统干扰协调技术研究.pdf
- 12位高速流水线ADC设计.pdf
- 360度虚拟视点视频生成技术研究.pdf
- ADCP数据质量分析评价与误差修正.pdf
- CrMnFeCoNi系高熵合金的制备及其性能研究.pdf
- DCN网络中基于流量感知的负载均衡机制.pdf
- FeSiBPCu系列纳米晶软磁合金的制备及性能研究.pdf
- GC人寿保险公司代理人基本激励制度改进研究.pdf
- G-布朗运动驱动的多智能体系统动力学分析.pdf
- IC银行国际贸易融资业务信用风险管理研究.pdf
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
最近下载
- 2025内蒙古能源集团智慧运维公司社会招聘笔试备考题库及答案解析.docx
- 标准图集-07FG01-人防工程图集-防空地下室设计荷载及结构构造.pdf
- 2025内蒙古能源集团智慧运维公司社会招聘(105人)笔试备考题库及答案解析.docx
- 黑龙江省哈尔滨市第三中学2023-2024学年高三上学期1月期末考试+化学+Word版含解析.docx
- 中草药栽培技术 课件 项目1--3 中草药的有性繁殖、中草药的无性繁殖、根及根茎类药材的栽培.pptx
- 高中英语北师大版选择性必修第四册Unit10Lesson2Communityspirit课件.pptx
- 高中政治人教版新教材必修一《中国特色社会主义》必备的知识点材料.pdf VIP
- 数学探究 用向量法研究三角形的性质.pptx
- T∕CACM 011-2016 中医药单用联合抗生素治疗常见感染性疾病临床实践指南 单纯性下尿路感染.docx VIP
- 2025年鞍钢集团有限公司人员招聘笔试备考题库.docx
文档评论(0)