- 117
- 0
- 约1.74万字
- 约 61页
- 2016-12-04 发布于湖北
- 举报
* 16.3.4 RDD运行原理 Spark采用RDD以后能够实现高效计算的原因主要在于: (1)高效的容错性 现有容错机制:数据复制或者记录日志 RDD:血缘关系、重新计算丢失分区、无需回滚系统、重算过程在不同节点之间并行、只记录粗粒度的操作 (2)中间结果持久化到内存,数据在内存中的多个RDD操作之间进行传递,避免了不必要的读写磁盘开销 (3)存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化 3.RDD特性 16.3.4 RDD运行原理 窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区 宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区 图16-9 窄依赖与宽依赖的区别 4. RDD之间的依赖关系 16.3.4 RDD运行原理 Spark通过分析各个RDD的依赖关系生成了DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage,具体划分方法是: 在DAG中进行反向解析,遇到宽依赖就断开 遇到窄依赖就把当前的RDD加入到Stage中 将窄依赖尽量划分在同一个Stage中,可以实现流水线计算 5.Stage的划分 16.3.4 RDD运行原理 图16-10根据RDD分区的依赖关系划分Stage 5.Stage的划分 被分成三个Stage,在Stage2中,从map到union都是
您可能关注的文档
最近下载
- 贵州省2025年7月普通高中学业水平合格性考试生物试题(含解析).pdf VIP
- 住宅项目异型吊篮安装拆除专项施工方案(专家论证版).docx
- 2025年9月河北省普通高中学业水平合格性考试数学试卷(含答案).pdf VIP
- 国际货物运输与保险全书ppt完整版课件整本书电子教案最全教学教程.pptx VIP
- 2026年全国社会工作师职业资格考试社会工作综合能力(初级)电子讲义.pdf
- 色谱分析(气相)PPT课件.pptx VIP
- 《AutoCAD 2024中文版电气设计基础与实例教程》教学大纲.docx
- 平法识图与钢筋算量 1、课程介绍 《平法识图与钢筋计量》整体设计.doc VIP
- 学记原文.doc VIP
- (正式版)DB50∕T 1915-2025 《电动重型货车大功率充电站建设技术规范》.pdf VIP
原创力文档

文档评论(0)