chapter16-厦门大学-林子雨-大数据技术原理与应用-第十六章-spark(2016年4月20日版本).pptVIP

  • 189
  • 0
  • 约1.74万字
  • 约 61页
  • 2016-05-10 发布于山西
  • 举报

chapter16-厦门大学-林子雨-大数据技术原理与应用-第十六章-spark(2016年4月20日版本).ppt

chapter16-厦门大学-林子雨-大数据技术原理与应用-第十六章-spark(2016年4月20日版本)

* 16.3.4 RDD运行原理 Spark采用RDD以后能够实现高效计算的原因主要在于: (1)高效的容错性 现有容错机制:数据复制或者记录日志 RDD:血缘关系、重新计算丢失分区、无需回滚系统、重算过程在不同节点之间并行、只记录粗粒度的操作 (2)中间结果持久化到内存,数据在内存中的多个RDD操作之间进行传递,避免了不必要的读写磁盘开销 (3)存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化 3.RDD特性 16.3.4 RDD运行原理 窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区 宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区 图16-9 窄依赖与宽依赖的区别 4. RDD之间的依赖关系 16.3.4 RDD运行原理 Spark通过分析各个RDD的依赖关系生成了DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage,具体划分方法是: 在DAG中进行反向解析,遇到宽依赖就断开 遇到窄依赖就把当前的RDD加入到Stage中 将窄依赖尽量划分在同一个Stage中,可以实现流水线计算 5.Stage的划分 16.3.4 RDD运行原理 图16-10根据RDD分区的依赖关系划分Stage 5.Stage的划分 被分成三个Stage,在Stage2中,从map到union都是

文档评论(0)

1亿VIP精品文档

相关文档