spark学习笔记spark亚太研究院群集体成员2014-12-9shanghai-pd.docxVIP

  • 0
  • 0
  • 约13.76万字
  • 约 227页
  • 2019-10-24 发布于湖南
  • 举报

spark学习笔记spark亚太研究院群集体成员2014-12-9shanghai-pd.docx

spark学习笔记spark亚太研究院群集体成员2014-12-9shanghai-pd.docx

PAGE226 Spark 学习笔记 Spark亚太研究院群集体成员 2014/12/9 shanghai-pd TOC \u \h Spark 学习笔记 1 1 序 14 2 Spark学习阶段篇 14 2.1 Scala语言 14 2.2 Spark平台的API 15 2.3 Spark内核 15 2.4 Spark上的核心框架 15 2.5 商业级别的Spark项目 16 2.6 Spark解决方案 16 3 Spark的学习路线篇 16 4 生态圈 16 4.1 Amplab 16 4.2 BDAS 17 4.3 Spark与Hadoop的比较 18 4.3.1 Spark与Hadoop的对比 19 4.3.2 Spark特性 20 4.3.3 Hadoop的MapReduce计算模型 20 4.3.4 Spark的计算模型 21 4.3.5 对比实例 24 4.4 Spark与Hadoop的结合 25 4.5 Shark 25 5 BlinkDB 25 5.1 BlinkDBs架构 25 5.2 BlinkDBs的设计核心思想 26 6 Spark架构设计 27 7 Spark编程模型 28 7.1 应用程序编程模型 28 7.2 RDD 30 7.2.1 RDD模型 30 7.2.2 RDD示意图 30 7.2.3 RDD简介 31 7.2.4 RDD的实现 32 7.2.5 RDD的存储 32 7.2.6 RDD的分区 33 7.2.7 RDD的操作 33 7.2.8 RDD的依赖 34 RDD依赖结构图 34 依赖与Stage示例 35 窄依赖(narrow dependencies) 37 宽依赖(wide dependencies) 37 两种依赖的的区别 38 7.2.9 RDD的持久化 38 7.2.10 RDD的容错性 38 分布式数据集容错方式 38 RDD的容错机制 38 Spark的高容错机制lineage 39 7.3 广播变量(Broadcast Variables) 41 7.4 累加器(Accumulator) 41 8 Spark执行框架 41 8.1 Spark运行架构 42 8.2 更多的细节 43 8.3 Spark的Task 46 8.4 Shuffle过程 47 9 集群模式的运行架构 47 9.1 Spark Standalone集群模式 47 9.2 Yarn集群 — Spark on Yarn 48 9.2.1 Cluster模式 48 10 spark 的调度机制 49 11 Spark内核 50 11.1 Spark内核初探 50 11.2 Spark内核核心术语解析 50 11.2.1 相关核心概念的结构 50 11.2.2 Application 51 11.2.3 Job 51 11.2.4 Driver Program 51 11.2.5 Cluster Manager 51 11.2.6 Worker Node 51 11.2.7 Executor 52 11.2.8 Task 52 11.2.9 Stage 52 11.2.10 RDD 52 11.3 Spark集群概览 52 11.4 Spark核心组件 53 11.5 资源管理与作业调度 55 11.6 Spark作业的执行 55 11.7 Spark任务调度系统初见 56 11.8 Spark内核核心源码解析 60 11.8.1 RDD依赖源码解析 60 11.8.2 依赖与Stage划分 61 11.8.3 RDD之分区源码解析 63 11.8.4 RDD源码解析 64 11.8.5 SparkContext核心源码解析 68 11.8.6 TaskSceduler启动源码解析 72 11.8.7 Driver中AppClient源码解析 74 11.8.8 AppClient注册Master 77 11.8.9 Worker中Executor启动过程源代码解析 82 11.8.10 DAGScheduler源码解析 86 11.8.11 Spark的Web监

文档评论(0)

1亿VIP精品文档

相关文档