- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二课: Spark 编程模型和解析
大数据高性能框架Spark
Spark 大数据平台 第一版 讲师:杨勇
3
RDD
舍我其谁 !
上周回顾
Spark 生态环境
–
Spark ( Spark core )是核心
– RDD 是基础,是桥梁
Spark 部署
– Spark 集群部署
–
Spark 应用程序部署
Spark 应用程序有两部分组成:
–
–
Driver
executor
Spark 两个应用工具
–
–
spark-shell
spark-submit
Spark 的源码编译方法
–
–
–
大数据高性能框架Spark
Maven
Sbt
make-distribution
Spark 大数据平台 第一版 讲师:杨勇
4
本周内容
Spark 编程模型( Spark 应用程序第一部分)
RDD
Spark-shell 程序调试
IDEA 程序调试
大数据高性能框架Spark
Spark 大数据平台 第一版 讲师:杨勇
5
本周内容
Spark 编程模型
RDD
Spark-shell 程序调试
IDEA 程序调试
大数据高性能框架Spark
Spark 大数据平台 第一版 讲师:杨勇
6
Spark 编程模型
Spark 应用程序有两部分组成:
–
–
Driver
Executor
Spark 应用程序基本概念
大数据高性能框架Spark
Spark 大数据平台 第一版 讲师:杨勇
7
Spark 编程模型
Spark 应用程序基本概念
大数据高性能框架Spark
大数据高性能框架Spark
Spark 大数据平台 第一版 讲师:杨勇
8
Spark 编程模型
Spark 应用程序编程模型
–
–
Driver Program ( SparkContext )
Executor ( RDD 操作)
●
●
●
●
输入 Base- RDD
Transformation RDD-RDD
Action RDD-driver or Base
缓存 Persist or cache()
–
共享变量
●
●
broadcast variables
accumulators
Spark 大数据平台 第一版 讲师:杨勇
9
Spark 编程模型
Driver program
–
导入 Spark 的类和隐式转换
–
–
–
构建 Spark 应用程序的运行环境 SparkConf
初始化 SparkContext
关闭 SparkContext
Spark-shell 在启动的时候会自动构建 SparkContext ,名称为 sc
大数据高性能框架Spark
Driver
Spark 大数据平台 第一版 讲师:杨勇
10
Spark 编程模型
并行化 Scala 集合
–
Spark 使用 parallelize 方法转换成 RDD
–
–
–
val rdd1 = sc.Parallelize(Array(1,2,3,4,5))
val rdd2 = sc.Parallelize(List(0 to 10),5)
参数 slice 是对数据集切片,每一个 slice 启动一个 Task 进行处理。
大数据高性能框架Spark
输入
Spark 大数据平台 第一版 讲师:杨勇
11
输入
Spark 编程模型
Hadoop 数据集
–
Spark 可以将任何 hadoop 所支持存储资源转化成 RDD ,如本地文件、 HDFS 、 Cassandr
–
a 、 HBase, Amazon S3 等。
Spark 支持 text files, SequenceFiles 和任何 Hadoop InputFormat 格式
使用 textFile() 方法可以将本地文件或 HDFS 文件转换成 RDD
●
– 如果读取本地文件,各节点都要有该文件;或者使用网络共享文件
– 支持整个文件目录读取,如 textFile(/my/directory)
– 压缩文件读取,如 textFile(/my/directory/*.gz)
– 通配符文件读取,如 textFile(/my/directory/*.txt)
– textFile() 有可选的第二个参数 slice ,默认情况下,为每个 block 创建一个分
片,用户也可以通过 slice 指定更多的分片,但不能使用少于 blo
您可能关注的文档
- DVM 模拟软件实例说明.ppt
- 设计报告-传动制动人机工程.pptx
- 细菌和真菌的繁殖课件 浙教版.ppt
- 构建大数据核心能力 大数据中心V1..pptx
- JSE-01Java编程语言概述.pptx
- GX-C新戈派爬管式数控管道相贯线切割机培训课件.pptx
- JSE-05面向对象编程上.pptx
- 科技文化节数控开关电源.ppt
- 模块八 接近开关培训课件.ppt
- 单片机编程绪论.pptx
- 华兴资本2025年产业AI应用热力报告21页.pdf
- HEADLINER-释放信任人工智能安全的蓝图.pdf
- 观察家研究基金会ORF2025全球人工智能AI的未来研究报告英文版23页.pdf
- 开放式创新SSbD和DPPs数字化以及对创新资产的有效和公平的共同创造和共享的追求PeterKlein博士.pdf
- 先进材料研发的挑战GerdLoehden.pdf
- 基于对生物降解性和数字工具的基本理解的可生物降解材料设计AndreasKuenkel.pdf
- 欧盟的循环性重点关注钢铁行业JurgenTiedje.pdf
- 研报食品饮料行业啤酒旺季来临关注东鹏饮料上市-21051616页.pdf
- 促进欧盟与日本合作开发建筑先进材料TakafumiNoguchi.pdf
- 利用人工智能进行多模态数据分析健康科学和研究中的实际应用.pdf
文档评论(0)