- 0
- 0
- 约3.33千字
- 约 5页
- 2026-01-04 发布于北京
- 举报
大数据课程设计
授课课题SparkRDD(续)4
教学目的:掌握SPARKRDD的概念和原理
教学目的
与要求能力要求:熟悉SPARK基本概念
教学重点sparkrdd的概念和原理
教学难点sparkrdd的概念和原理
教学准备Hadoop集群,spark集群
1.生成方式
2.RDD特性
3.DAG
课程大纲
4.任务集
5.任务集的划分
6.任务提交
基于上一节课内容继续讲解RDD的生成方式,RDD特性,DAG的原理,
任务集相关原理以及任务提交等知识。见附录
教学过程
板书设计
随堂作业1.归纳总结
【生成方式】
RDD的生成方式只有两种,一是从数据源读入,另一种就是从其它RDD通过transformation操
作转换。一个典型的Spark程序就是通过Spark上下文环境(SparkContext)生成一个或多个RDD,
在这些RDD上通过一系列的transformation操作生成最终的RDD,最后通过调用最终RDD的action
方法输出结果。
【RDD特性】
每个RDD都可以用下面5个特性来表示,其中后两个为可选的:
分片列表(数据块列表)
计算每个分片的函数
对父RDD的依赖列表
对key-value类型的RDD的分片器(Partitioner)(可选)
每个数据分片的预定义地址列表(如HDFS上的数据块的地址)(可选)
然Spark是基于内存的计算,但RDD不光可以在内存中,根据useDisk、useMemory、
useOffHeap,deserialized、replication五个参数的组合Spark了12种级别
值得注意的是当StorageLevel设置成OFF_HEAP时,RDD实际被保存到Tachyon中。Tachyon是
一个基于内存的分布式文件系统
【DAG】
Spark的计算发生在RDD的action操作,而对action之前的所有transformation,Spark只是
记录下RDD生成的轨迹,而不会触发真正的计算。
Spark内核会在需要计算发生的时刻绘制一张关于计算路径的有向无环图,也就是DAG
【任务集】
有了计算的DAG图,Spark内核下一步的任务就是根据DAG图将计算划分成任务集,也就是
Stage,这样可以将任务提交到计算节点进行真正的计算
Spark计算的中间结果默认是保存在内存中的,Spark在划分Stage的时候会充分考虑在分布式
计算中可流水线计算(pipeline)的部分来提高计算的效率
而在这个过程中,主要的根据就是RDD的依赖类型。根据不同的transformation操作,RDD的
依赖可以分为窄依赖(NarrowDependency)和宽依赖(WideDependency,在代码中为
ShuffleDependency)两种类型
窄依赖指的是生成的RDD中每个partition只依赖于父RDD(s)固定的partition。宽依赖指的
是生成的RDD的每一个par
您可能关注的文档
最近下载
- 山东省潍坊市潍城区2024-2025学年六年级上学期期末数学试题.docx VIP
- 高考英语3500词详解.doc VIP
- 2.3河流与湖泊第2课时长江课件八年级地理上学期人教版.pptx VIP
- CDR解调解码器D3200使用说明书V1.0.pdf VIP
- 《圣教序》字字析130讲.docx
- 《护患沟通的艺术》课件.ppt VIP
- 【公开课】人作与天开——中国古典园林艺术+教学设计高一上学期美术人美版(2019)美术鉴赏.docx VIP
- 机械密封讲义--机械密封的原理及日常维护解析.ppt VIP
- 《有限元分析与实例讲解》课件.ppt VIP
- 部编版二年级语文上册期末测试卷(3套)(附答案).pdf VIP
原创力文档

文档评论(0)