chapter16-厦门大学-林子雨-大数据技术原理与应用-第十六章-spark（2016年4月20日版本）.pptVIP

下载本文档

189
0
约1.74万字
约 61页
2016-05-10 发布于山西
举报

chapter16-厦门大学-林子雨-大数据技术原理与应用-第十六章-spark（2016年4月20日版本）.ppt

chapter16-厦门大学-林子雨-大数据技术原理与应用-第十六章-spark（2016年4月20日版本）

* 16.3.4 RDD运行原理 Spark采用RDD以后能够实现高效计算的原因主要在于：（1）高效的容错性现有容错机制：数据复制或者记录日志 RDD：血缘关系、重新计算丢失分区、无需回滚系统、重算过程在不同节点之间并行、只记录粗粒度的操作（2）中间结果持久化到内存，数据在内存中的多个RDD操作之间进行传递，避免了不必要的读写磁盘开销（3）存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化 3.RDD特性 16.3.4 RDD运行原理窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区图16-9 窄依赖与宽依赖的区别 4. RDD之间的依赖关系 16.3.4 RDD运行原理 Spark通过分析各个RDD的依赖关系生成了DAG，再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage，具体划分方法是：在DAG中进行反向解析，遇到宽依赖就断开遇到窄依赖就把当前的RDD加入到Stage中将窄依赖尽量划分在同一个Stage中，可以实现流水线计算 5.Stage的划分 16.3.4 RDD运行原理图16-10根据RDD分区的依赖关系划分Stage 5.Stage的划分被分成三个Stage，在Stage2中，从map到union都是

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

chapter16-厦门大学-林子雨-大数据技术原理与应用-第十六章-spark（2016年4月20日版本）.pptVIP