- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第3章SparkRDD弹性分布式数据集;学习目标/Target;学习目标/Target;章节概述/Summary;目录/Contents;目录/Contents;RDD简介;3.1RDD简介;3.1RDD简介;RDD的创建;3.2RDD的创建;3.2.1基于文件创建RDD;Spark提供了textFile()方法,用于从文件系统中的文件读取数据并创建RDD,包括本地文件系统、HDFS、AmazonS3等,其语法格式如下。;;;3.2.2基于数据集合创建RDD;Spark提供了parallelize()方法,用于从数据集合(数组、List集合等)读取数据并创建RDD,其语法格式如下。;接下来,演示从数据集合读取数据并创建RDD,在SparkShell中执行如下代码。;RDD的处理过程;3.3RDD的处理过程;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;接下来,以IntelliJIDEA为例,演示如何使用filter算子,具体操作步骤如下。;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;3.3.1 转换算子;3.3.2 行动算子;3.3.2 行动算子;3.3.2 行动算子;3.3.2 行动算子;3.3.2 行动算子;3.3.2 行动算子;3.3.2 行动算子;3.3.2 行动算子;3.3.2 行动算子;RDD的分区;3.4RDD的分区;3.4RDD的分区;3.4RDD的分区;RDD的依赖关系;3.5RDD的依赖关系;3.5RDD的依赖关系;3.5RDD的依赖关系;3.5RDD的依赖关系;RDD机制;3.6RDD机制;3.6.1持久化机制;持久化机制,也称为缓存机制,用于将RDD缓存在内存或磁盘上,以备后续重用。在Spark中,由于RDD采用惰性求值的方式,意味着RDD的转换操作不会立即执行计算。只有在遇到行动操作时,Spark才会根据RDD之间的依赖关系,触发转换操作执行计算。在存在多个行动算子的情况下,每个行动算子都可能导致转换操作的重复计算。为了避免这种资源开销,可通过持久化机制将重复使用的RDD缓存到内存或磁盘中,从而避免重复计算,提高计算效率。;3.6.1持久化机制;3.6.1持久化机制;3.6.1持久化机制;3.6.1持久化机制;3.6.2容错机制;3.6.2容错机制;3.6.2容错机制;Spark的任务调度;3.7.1DAG的概念;3.7.1DAG的概念;3.7.1DAG的概念;3.7.2RDD在Spark中的运行流程;3.7.2RDD在Spark中的运行流程;3.7.2RDD在Spark中的运行流程;本章小结
您可能关注的文档
最近下载
- 生物质基气凝胶的研究进展.docx
- 腰椎管狭窄症课件.pptx VIP
- 基于劳动教育的创新教育实践研究.docx VIP
- 教学常规及教学技能——含山县新教师集中培训班讲稿.ppt VIP
- 焊接方法与设备使用教学课件作者曹朝霞齐勇田主编第4章钨极惰性气体保护焊(GTAW)课件.ppt VIP
- 电信公司办公室主任竞聘演讲稿.pptx
- 焊接方法与设备使用教学作者曹朝霞齐勇田主编熔化极气体保护电弧焊.pptx VIP
- 冯谖客孟尝君PPT.ppt VIP
- 推动速生桉树种植产业可持续发展的实践研究.docx
- (高清版)B-T 9254.1-2021 信息技术设备、多媒体设备和接收机 电磁兼容 第1部分 发射要求.pdf VIP
文档评论(0)