- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1.前言
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖
了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操
作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多
数同学(包括笔者在内),最初开始尝试使用Spark的很简单,主要就是为了让大数据计算作业的
执行速度更快、性能更高。
然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合
理的调优,Spark作业的执行速度可能会很慢,这样就完全体现不出Spark作为一种快速大数据计算引
擎的优势来。因此,想要用好Spark,就必须对其进行合理的性能优化。
Spark的性能调优实际上是由很多部分组成的,不是调节几个参数就可以立竿见影提升作业性能的。我
们需要根据不同的业务场景以及数据情况,对Spark作业进行综合性的分析,然后进行多个方面的调节
和优化,才能获得最佳性能。
笔者根据之前的Spark作业开发经验以及实践积累,总结出了一套Spark作业的性能优化方案。整套方
案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有
Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解
了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对Spark的原理有较
次掌握和研究的同学,主要讲解了如何对Spark作业的shuffle运行过程以及细节进行调优。
本文作为Spark性能优化指南的基础篇,主要讲解开发调优以及资源调优。
2.开发调优概述
Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开
发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDDLineage设计、算子的合理使
用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务
以及实际的应用场景,灵活地运用到自己的Spark作业中。
3.开发调优原则
3.1.避免创建重复的RDD
通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建
一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,
直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、
reduce等)串起来,这个“RDD串”,就是RDDlineage,也就是“RDD的血缘关系链”。
我们在开发过程中要注意:对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份
数据。
一些Spark初学者在刚开始开发Spark作业时,或者是有经验的工程师在开发RDDlineage极其冗长的
Spark作业时,可能会忘了自己之前对于某一份数据已经创建过一个RDD了,从而导致对于同一份数
据,创建了多个RDD。这就意味着,我们的Spark作业会进行多次重复计算来创建多相同数据
的RDD,进而增加了作业的性能开销。
1.
Preface
Inthefieldofbigdatacomputing,Sparkhasbecomeoneoftheincreas
您可能关注的文档
- 企业招聘2025内蒙古方鼎金荣集团派驻联通数字科技有限公司笔试参考题库附答案.docx
- 2026招商银行唐山分行校园招聘备考题库附答案.docx
- 浙江国企招聘-2025杭州建德市林业总场下属林场招聘10人笔试参考题库最新.docx
- 浙江国企招聘-2025绍兴市镜湖开发集团有限公司下属国企招聘1模拟试卷最新.docx
- 2025福建漳州闽投发电有限公司招聘31人笔试备考试题附答案.docx
- 六年级下册数学试题圆柱圆锥巩固提高人教版无答案.pdf
- 浙江国企招聘-2025宁波慈溪市国有企业公开招聘工作人员130名笔试备考试题附答案.docx
- 2026中国邮政储蓄银行天津分行校园招聘备考题库附答案解析.docx
- 大连农商银行2025年秋季招聘备考题库附答案.docx
- 邻水国有资产经营管理集团有限公司关于2025年公开考试招聘工考前自测高频考点模拟试题最新.docx
- 2026年周口市城乡一体化示范区招聘公益性岗位人员10人备考题库最新.docx
- 2025新疆六师公安机关面向社会招聘警务辅助人员55人考前自测高频考点模拟试题附答案.docx
- 2025江西省交投数智科技有限公司招聘12人笔试备考试题最新.docx
- 2025新疆兵投检验检测有限责任公司市场化招聘4人备考题库最新.docx
- 2025年莒南县司法局下属单位招聘备考题库附答案.docx
- 2025年陵县体育局下属单位招聘备考题库附答案.docx
- 2025年罗源县发改委下属事业单位招聘笔试参考题库附答案.docx
- 2025湖北交投宜昌高速公路建设管理有限公司管理人员遴选5人备考题库附答案.docx
- 2025广东深圳市福田区教育科学研究院市内选调教研员11人备考题库最新.docx
- 2025广东广州市岑村强制隔离戒毒所招聘警务辅助人员3人备考题库最新.docx
原创力文档


文档评论(0)