大数据实践第5章内存大数据计算框架Spark.pptxVIP

下载本文档

6
0
约3.59千字
约 36页
2020-10-31 发布于江苏
举报

大数据实践第5章内存大数据计算框架Spark.pptx

大数据应用人才培养系列教材大数据实践习题大数据应用人才培养系列教材 5.1 Spark简介第五章内存大数据计算框架Spark 美国加州大学伯克利分校的AMP实验室在2010年发布的一个快速、通用的开源大数据处理引擎与Hadoop平台类似, 提供更高效、更快的数据处理，兼容Hadoop生态当前主流的数据分析、数据流式处理、机器学习平台之一 Spark 特性批处理、流失处理、迭代计算（机器学习、图计算）、交互式查询编程语言：Java、Scala、Python、R、SQL 交互式数据处理: Spark Shell、PySpark、Spark SQL CLI 高效利用内存处理数据；计算中间结果不需要存储到文件系统；作业调度的优化第五章内存大数据计算框架Spark DAG编程模型丰富了map,reduce操作接口，增加了filter、flatMap、union等操作接口 5.1 Spark简介 HDFS、Hive、HBase、Parquet等第五章内存大数据计算框架Spark 5.1 Spark简介 Spark生态系统BDAS 第五章内存大数据计算框架Spark 5.1 Spark简介 Spark应用程序架构第五章内存大数据计算框架Spark 5.1 Spark简介有向无环图的阶段划分 A----groupBy--B C----map------D D,E--union-----F B,F---join------G RDD的转化：习题大数据应用人才培养系列教材 5.2 Spark部署第五章内存大数据计算框架Spark 准备工作 1）安装JDK 2）下载Spark 5.2 Spark部署第五章内存大数据计算框架Spark Spark单节点部署 1）选择一台 Linux机器，安装JDK 2）下载Spark包文件，并解压 3）运行测试程序（计算圆周率） /bin/run-example SparkPi 10 2/dev/null 5.2 Spark部署第五章内存大数据计算框架Spark Spark集群点部署 —Standalone模式集群的架构 5.2 Spark部署第五章内存大数据计算框架Spark Spark集群点部署 —Standalone模式集群的规划 5.2 Spark部署第五章内存大数据计算框架Spark Spark集群点部署 —Standalone模式集群的部署步骤 1）配置Linux机器，调通网络，关闭防火墙 2）创建用户dtadmin 3）配置host文件 4）安装JDK 5）配置免密码登录 6）下载、解压Spark安装包 7）配置slaves文件 8）执行启动脚本，启动集群 9）验证安装是否成功 10）提交测试程序 5.2 Spark部署第五章内存大数据计算框架Spark Spark集群点部署 —高可用集群 1）增加备用Master节点实现高可用集群 2）配置Master节点本地文件系统恢复习题大数据应用人才培养系列教材 5.3 Spark配置第五章内存大数据计算框架Spark 三种配置 1）Spark属性应用程序相关配置 2）环境变量机器相关配置 3）日志配置日志开关、级别等 5.3 Spark配置第五章内存大数据计算框架Spark Spark属性，优先级由低到高： 1）spark-defaults.conf 配置文件 2）命令行参数 3）SparkConf对象 5.3 Spark配置第五章内存大数据计算框架Spark 常用Spark属性属性名默认值含义 spark.app.name (none) Spark应用程序的名称 spark.driver.cores 1 集群模式下driver所使用的core的数量 spark.driver.memory 1G Driver进程所使用的内存大小 spark.executor.memory 1G 每个executor进程所使用的内存大小 spark.master (none) 集群管理器URL spark.submit.deployMode (none) Driver程序的部署模式，取值为：”client”或”cluster” 5.3 Spark配置第五章内存大数据计算框架Spark 常用环境变量配置配置项含义 SPARK_LOCAL_IP 绑定的IP地址 SPARK_PUBLIC_DNS Driver程序使用的DNS服务器 SPARK_CLASSPATH 额外追加的classpath 习题大数据应用人才培养系列教材 RDD 特性一旦生成便不可修改

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大数据实践第5章内存大数据计算框架Spark.pptxVIP