- 189
- 0
- 约1.74万字
- 约 61页
- 2016-05-10 发布于山西
- 举报
chapter16-厦门大学-林子雨-大数据技术原理与应用-第十六章-spark(2016年4月20日版本)
* 16.3.4 RDD运行原理 Spark采用RDD以后能够实现高效计算的原因主要在于: (1)高效的容错性 现有容错机制:数据复制或者记录日志 RDD:血缘关系、重新计算丢失分区、无需回滚系统、重算过程在不同节点之间并行、只记录粗粒度的操作 (2)中间结果持久化到内存,数据在内存中的多个RDD操作之间进行传递,避免了不必要的读写磁盘开销 (3)存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化 3.RDD特性 16.3.4 RDD运行原理 窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区 宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区 图16-9 窄依赖与宽依赖的区别 4. RDD之间的依赖关系 16.3.4 RDD运行原理 Spark通过分析各个RDD的依赖关系生成了DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage,具体划分方法是: 在DAG中进行反向解析,遇到宽依赖就断开 遇到窄依赖就把当前的RDD加入到Stage中 将窄依赖尽量划分在同一个Stage中,可以实现流水线计算 5.Stage的划分 16.3.4 RDD运行原理 图16-10根据RDD分区的依赖关系划分Stage 5.Stage的划分 被分成三个Stage,在Stage2中,从map到union都是
您可能关注的文档
- aeds (automated external defibrillations) 的操作.ppt
- adjectives clauses with prepositions -.ppt
- alkaloids.ppt
- airplayer_manual_cn.doc
- allelopathy in plants - wikispaces.ppt
- alleducation.ppt
- ambev - opr global organization & people review.ppt
- acp medicine and acp pier - ebm solution -flysheet.ppt
- an introduction to scrum -.ppt
- amass-crm用户使用手册.doc
- 成人慢性疼痛护理规范 DB13_T 6030-2024.docx
- 2026年《WST 312-2009医院感染监测规范》宣贯培训方案.docx
- 创伤性休克患者护理指南(DB1303_T 382-2024).docx
- 十五五期间基于生物传感器的连续生理监测与药物响应动态投资分析报告.docx
- 2025年烧伤治疗与护理手册.docx
- 经典国外包装设计.docx
- 呼吸科优质护理一科一品建设实践与成效.docx
- GA_T 2323-2025 法庭科学 生物检材中硫代硫酸根离子检验 液相色谱-质谱法.docx
- GA_T 2329-2025法庭科学 虹膜图像相似度检验技术规范.docx
- 《肝衰竭肝移植围手术期管理诊治指南(2026版)》解读.docx
原创力文档

文档评论(0)