- 6
- 0
- 约3.59千字
- 约 36页
- 2020-10-31 发布于江苏
- 举报
大数据应用人才培养系列教材
大数据实践
习题
大数据应用人才培养系列教材
5.1 Spark简介
第五章 内存大数据计算框架Spark
美国加州大学伯克利分校的AMP实验室在2010年发布的一个快速、通用的开源大数据处理引擎
与Hadoop平台类似, 提供更高效、更快的数据处理,兼容Hadoop生态
当前主流的数据分析、数据流式处理、机器学习平台之一
Spark
特性
批处理、流失处理、迭代计算(机器学习、图计算)、交互式查询
编程语言:Java、Scala、Python、R、SQL
交互式数据处理: Spark Shell、PySpark、Spark SQL CLI
高效利用内存处理数据;计算中间结果不需要存储到文件系统;作业调度的优化
第五章 内存大数据计算框架Spark
DAG编程模型丰富了map,reduce操作接口,增加了filter、flatMap、union等操作接口
5.1 Spark简介
HDFS、Hive、HBase、Parquet等
第五章 内存大数据计算框架Spark
5.1 Spark简介
Spark生态系统BDAS
第五章 内存大数据计算框架Spark
5.1 Spark简介
Spark应用程序架构
第五章 内存大数据计算框架Spark
5.1 Spark简介
有向无环图的阶段划分
A----groupBy--B
C----map------D
D,E--union-----F
B,F---join------G
RDD的转化:
习题
大数据应用人才培养系列教材
5.2 Spark部署
第五章 内存大数据计算框架Spark
准备工作
1) 安装JDK
2) 下载Spark
5.2 Spark部署
第五章 内存大数据计算框架Spark
Spark单节点部署
1) 选择一台 Linux机器,安装JDK
2) 下载Spark包文件,并解压
3)运行测试程序(计算圆周率)
/bin/run-example SparkPi 10 2/dev/null
5.2 Spark部署
第五章 内存大数据计算框架Spark
Spark集群点部署 —Standalone模式集群的架构
5.2 Spark部署
第五章 内存大数据计算框架Spark
Spark集群点部署 —Standalone模式集群的规划
5.2 Spark部署
第五章 内存大数据计算框架Spark
Spark集群点部署 —Standalone模式集群的部署步骤
1) 配置Linux机器,调通网络,关闭防火墙
2) 创建用户dtadmin
3) 配置host文件
4) 安装JDK
5) 配置免密码登录
6) 下载、解压Spark安装包
7) 配置slaves文件
8)执行启动脚本,启动集群
9)验证安装是否成功
10)提交测试程序
5.2 Spark部署
第五章 内存大数据计算框架Spark
Spark集群点部署 —高可用集群
1)增加备用Master节点实现高可用集群
2)配置Master节点本地文件系统恢复
习题
大数据应用人才培养系列教材
5.3 Spark配置
第五章 内存大数据计算框架Spark
三种配置
1)Spark属性 应用程序相关配置
2)环境变量 机器相关配置
3)日志配置 日志开关、级别等
5.3 Spark配置
第五章 内存大数据计算框架Spark
Spark属性, 优先级由低到高:
1)spark-defaults.conf 配置文件
2)命令行参数
3)SparkConf对象
5.3 Spark配置
第五章 内存大数据计算框架Spark
常用Spark属性
属性名
默认值
含义
spark.app.name
(none)
Spark应用程序的名称
spark.driver.cores
1
集群模式下driver所使用的core的数量
spark.driver.memory
1G
Driver进程所使用的内存大小
spark.executor.memory
1G
每个executor进程所使用的内存大小
spark.master
(none)
集群管理器URL
spark.submit.deployMode
(none)
Driver程序的部署模式,取值为:”client”或”cluster”
5.3 Spark配置
第五章 内存大数据计算框架Spark
常用环境变量配置
配置项
含义
SPARK_LOCAL_IP
绑定的IP地址
SPARK_PUBLIC_DNS
Driver程序使用的DNS服务器
SPARK_CLASSPATH
额外追加的classpath
习题
大数据应用人才培养系列教材
RDD
特性
一旦生成便不可修改
原创力文档

文档评论(0)