- 0
- 0
- 约1.58万字
- 约 61页
- 2026-04-14 发布于浙江
- 举报
*10.3.4RDD运行原理5.阶段的划分Spark根据DAG图中的RDD依赖关系,把一个作业分成多个阶段。阶段划分的依据是窄依赖和宽依赖。对于宽依赖和窄依赖而言,窄依赖对于作业的优化很有利,宽依赖无法优化逻辑上,每个RDD操作都是一个fork/join(一种用于并行执行任务的框架),把计算fork到每个RDD分区,完成计算后对各个分区得到的结果进行join操作,然后fork/join下一个RDD操作10.3.4RDD运行原理5.阶段的划分fork/join的优化原理举例:一个学校(含2个班级)完成从北京到厦门的长征10.3.4RDD运行原理5.阶段的划分窄依赖可以实现“流水线”优化宽依赖无法实现“流水线”优化10.3.4RDD运行原理5.阶段的划分10.3.4RDD运行原理Spark根据DAG图中的RDD依赖关系,把一个作业分成多个阶段。对于宽依赖和窄依赖而言,窄依赖对于作业的优化很有利。只有窄依赖可以实现流水线优化,宽依赖包含Shuffle过程,无法实现流水线方式处理。Spark通过分析各个RDD的依赖关系生成了DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage,具体划分方法是:在DAG中进行反向解析,遇到宽依赖就断开遇到窄依赖就把当前的RDD加入到Stage中将窄依赖尽量划分在同一个S
您可能关注的文档
- 第0章-课程介绍(2020年12月版本).ppt
- 第1章-大数据概述(2020年12月版本).ppt
- 第3章-分布式文件系统HDFS(2020年12月版本).ppt
- 第8章-Hadoop架构再探讨(2020年12月版本).ppt
- 第11章-流计算(2020年12月版本).ppt
- 第12章-Flink(2020年12月版本).ppt
- 第13章-图计算(2020年12月版本).pptx
- 第14章-数据可视化(2020年12月版本).ppt
- 第1章 绪论(导论).pdf
- 第2章 知识表示(导论).pdf
- 四川省成都市嘉祥教育集团2024-2025学年七年级下学期期中数学试题(解析版).docx
- 四川省成都市青羊区石室联合中学2024-2025学年七年级下学期期中考试数学试题(解析版).pdf
- 四川省成都市青羊区石室联合中学2024-2025学年七年级下学期期中考试数学试题(解析版).docx
- 四川省成都市武侯区北京第二外国语学院成都附属中学2024-2025学年七年级下学期期中数学试题(解析版).docx
- 四川省成都市武侯区北京第二外国语学院成都附属中学2024-2025学年七年级下学期期中数学试题(解析版).pdf
- 四川省绵阳市涪城区2024-2025学年七年级下学期5月期中考试数学试题(解析版).pdf
- 四川省绵阳市涪城区2024-2025学年七年级下学期5月期中考试数学试题(解析版).docx
- 四川省绵阳市江油市2024-2025学年七年级下学期5月期中数学试题(解析版).pdf
- 四川省绵阳市江油市2024-2025学年七年级下学期5月期中数学试题(解析版).docx
- 四川省绵阳市游仙区2024-2025学年七年级下学期5月期中考试数学试题(解析版).docx
原创力文档

文档评论(0)