第10章-Spark(2020年12月版本).pptVIP

  • 0
  • 0
  • 约1.58万字
  • 约 61页
  • 2026-04-14 发布于浙江
  • 举报

*10.3.4RDD运行原理5.阶段的划分Spark根据DAG图中的RDD依赖关系,把一个作业分成多个阶段。阶段划分的依据是窄依赖和宽依赖。对于宽依赖和窄依赖而言,窄依赖对于作业的优化很有利,宽依赖无法优化逻辑上,每个RDD操作都是一个fork/join(一种用于并行执行任务的框架),把计算fork到每个RDD分区,完成计算后对各个分区得到的结果进行join操作,然后fork/join下一个RDD操作10.3.4RDD运行原理5.阶段的划分fork/join的优化原理举例:一个学校(含2个班级)完成从北京到厦门的长征10.3.4RDD运行原理5.阶段的划分窄依赖可以实现“流水线”优化宽依赖无法实现“流水线”优化10.3.4RDD运行原理5.阶段的划分10.3.4RDD运行原理Spark根据DAG图中的RDD依赖关系,把一个作业分成多个阶段。对于宽依赖和窄依赖而言,窄依赖对于作业的优化很有利。只有窄依赖可以实现流水线优化,宽依赖包含Shuffle过程,无法实现流水线方式处理。Spark通过分析各个RDD的依赖关系生成了DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage,具体划分方法是:在DAG中进行反向解析,遇到宽依赖就断开遇到窄依赖就把当前的RDD加入到Stage中将窄依赖尽量划分在同一个S

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档