- 14
- 0
- 约2.66万字
- 约 179页
- 2024-02-26 发布于江苏
- 举报
Spark大数据技术与应用案例教程主讲教师:
目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架
目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据
项目二SparkRDD——弹性分布式数据集
第5页在实际应用中,已有的迭代算法和交互式数据挖掘工具存在两个问题。SparkRDD的出现解决了它们,它提供了一个抽象的数据架构,实现了通用性;不同RDD之间的转换操作形成依赖关系,可以实现管道化,避免了中间结果的存储,降低了开销。本项目结合分析学生成绩数据实例,首先介绍创建RDD的方法,然后介绍RDD的转换操作和行动操作,最后介绍存储RDD的方法。
第6页掌握RDD的执行过程和依赖关系。理解RDD持久化和分区。熟悉Spark中常见的文件格式。
第7页能读取数据创建RDD。能使用RDD的不同操作处理数据。能对RDD进行持久化和分区操作。能将RDD存储为不同类型的文件。
第8页掌握编程思路,培养逻辑思维能力。
任务一读取学生成绩创建RDD任务二查询考试成绩排名前三的学生信息任务三计算学生的平均成绩任务四存储归纳后的学生成绩数据
任务一读取学生成绩创建RDD
第11页通过分析和统计学生的成绩,学校可以了解学生的学习情况,并根据学习情况对学生进行评优评先,从而激发学生的学习动力。使用Spark分析和统计学生成绩时,需要读取学生成绩数据创建RDD。创建RDD之前我们先学习SparkRDD的执行过程、RDD之间的依赖关系,以及创建RDD的不同方法。
第12页一、SparkRDD的执行过程弹性分布式数据集(RDD)是Spark中最基本的抽象概念之一,它是一个不可变的、弹性的、可分区的分布式数据集合。每个RDD可以分成多个分区,每个分区就是一个数据集片段。
第13页一、SparkRDD的执行过程一个RDD的不同分区可以存储在集群的不同节点上,从而实现分布式计算。RDD的特性如图所示。
第14页一、SparkRDD的执行过程RDD屏蔽了复杂的底层分布式计算,为用户提供了方便的数据转换和求值方法,其典型的执行过程如图所示。
第15页一、SparkRDD的执行过程Spark会读取数据源(如本地文件系统、HDFS、数据库等)中的数据创建RDD。(1)创建RDDRDD典型的执行过程
第16页一、SparkRDD的执行过程对已有RDD进行各种转换操作。这些操作都是惰性求值的,不会立即执行,而是在遇到行动操作时才会执行。每次转换操作都会生成一个新的RDD,该RDD会记录其与前一个RDD的依赖关系,并形成一条有向无环图(DAG)。(2)转换操作RDD典型的执行过程
第17页一、SparkRDD的执行过程执行针对RDD的行动操作得到值(值也是RDD),可以将值返回给驱动程序或者输出到外部存储系统。(3)行动操作RDD典型的执行过程
第18页一、SparkRDD的执行过程例如,RDD执行过程的一个实例如图所示。
第19页一、SparkRDD的执行过程其中,读取输入的数据,逻辑上创建A和C两个RDD,经过一系列转换操作,逻辑上生成F(也是RDD)。此时,计算并没有真正发生,Spark中形成记录了RDD之间依赖关系的DAG。当遇到针对F的行动操作时,Spark生成一个作业,向DAG调度器提交作业,触发从起点开始的真正计算,输出计算结果。这一系列处理称为一个“血缘关系”,即DAG拓扑排序的结果。
第20页二、SparkRDD之间的依赖关系在Spark中,不同的操作使不同的RDD之间产生了不同的依赖关系,这些依赖关系可以分为窄依赖(narrowdependency)和宽依赖(widedependency)。
第21页二、SparkRDD之间的依赖关系(1)父RDD父RDD是指在Spark中生成当前RDD的原始数据集,每个RDD可以有一个或多个父RDD。
第22页二、SparkRDD之间的依赖关系(2)子RDD子RDD指的是通过对父RDD进行转换操作派生出来的新RDD。
第23页二、SparkRDD之间的依赖关系(3)Shuffle操作Shuffle操作是指根据某个键(key)对元素进行重新分区和重新组合的过程。Shuffle操作将数据从源分区移动到目标分区,并对数据进行排序或聚合等操作
第24页二、SparkRDD之间的依赖关系窄依赖是指父RDD的每个分区最多被子RDD的一个分区所使用
您可能关注的文档
最近下载
- 执法工作中存在的问题和不足.docx VIP
- 分析力学PPT课件.ppt VIP
- 生成式人工智能在高中数学课堂中的应用:激发学生探究兴趣的实证研究教学研究课题报告.docx
- 部编版小学五年级道德与法治下册第二单元第5课《建立良好的公共秩序》第二课时(教案).docx VIP
- 2026年中职学校工作计划.docx VIP
- 排列数的综合运用_课件.pptx VIP
- QGW17991-2025《电力安全工作规程变电部分》.pdf VIP
- 西南科技大学处室文件-西南科技大学研究生院.PDF VIP
- iTrust UL33系列UPS系统20-60kVA用户手册(V1.5).pdf VIP
- 新改版教科版六年级下册科学知识点.doc VIP
原创力文档

文档评论(0)