第10章-Spark（2020年12月版本）.pptVIP

下载本文档

0
0
约1.58万字
约 61页
2026-04-14 发布于浙江
举报

第10章-Spark（2020年12月版本）.ppt

*10.3.4RDD运行原理5.阶段的划分Spark根据DAG图中的RDD依赖关系，把一个作业分成多个阶段。阶段划分的依据是窄依赖和宽依赖。对于宽依赖和窄依赖而言，窄依赖对于作业的优化很有利，宽依赖无法优化逻辑上，每个RDD操作都是一个fork/join（一种用于并行执行任务的框架），把计算fork到每个RDD分区，完成计算后对各个分区得到的结果进行join操作，然后fork/join下一个RDD操作10.3.4RDD运行原理5.阶段的划分fork/join的优化原理举例：一个学校（含2个班级）完成从北京到厦门的长征10.3.4RDD运行原理5.阶段的划分窄依赖可以实现“流水线”优化宽依赖无法实现“流水线”优化10.3.4RDD运行原理5.阶段的划分10.3.4RDD运行原理Spark根据DAG图中的RDD依赖关系，把一个作业分成多个阶段。对于宽依赖和窄依赖而言，窄依赖对于作业的优化很有利。只有窄依赖可以实现流水线优化，宽依赖包含Shuffle过程，无法实现流水线方式处理。Spark通过分析各个RDD的依赖关系生成了DAG，再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage，具体划分方法是：在DAG中进行反向解析，遇到宽依赖就断开遇到窄依赖就把当前的RDD加入到Stage中将窄依赖尽量划分在同一个S

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第10章-Spark（2020年12月版本）.pptVIP