《Spark技术》_《Spark技术》_项目二.pptxVIP

下载本文档

1
0
约2.62千字
约 19页
2026-01-05 发布于广东
举报
版权申诉

《Spark技术》_《Spark技术》_项目二.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

项目二Spark集群的构建与安装延时符

序言02延时符项目描述模拟一个大数据实时处理项目开发需要环境，正式开启大数据实时分析系统的环境搭建。本章先介绍Spark的基本安装方法，在介绍Spark集群环境搭建方法。项目分析通过需求分析工程师、软件设计工程师的工作，已经对系统进行了整体的设计，系统由数据采集模块、数据缓冲模块、数据处理模块三个子模块构成，其中数据采集使用Flume，数据缓冲模块使用中间件Kafka，数据处理模块使用SparkStreaming。

0301OPTION02OPTIONSpark集群安装Spark集群搭建目录页延时符

Spark集群安装1.jdk安装2.节点间的配置3.Spark安装包下载04任务1

05Spark集群安装负责Spark应用程序提交。在Client模式下，启动Diver程序，负责监控task执行和结果的回收等。完整的Spark集群应该包含以下三部分MasterWorker客户端Spark资源管理的主节点，负责管理集群的总资源、管理Worker节点，以及为提交在集群中的应用程序分配资源。Spark资源管理的从节点，在Cluster模式下负责启动Driver。负责启动Executor运行task。此外，Worker接地但还负责数据的存储、数据的持久化、数据处理等。

jdk安装登录官网下载JDK8，进行安装配置。这里下载的式tar.gz格式JDK8。直接将下载好的压缩包上传到master中，进行解压配置即可。Spark集群安装Spark安装准备网站网址为：/technetwork/java/javase/downloads/jdk8-downloads-2133151.html06

Spark集群安装将解压的jdk和配置好的/etc/profile文件发送到两个Work节点和客户端，当将文件发送到其他节点时，需要输入对应节点的密码（如果设置了免密登录就不需要密码）。07

Spark集群安装在两台Worker节点和客户端节点上分别执行如下命令，使profile文件生效，并检查jdk是否安装成功：08

Spark集群安装节点间的配置在节点间配置免密的目的是节点之间在集群启动或者任务运行过程中会有大量通信，配置了免密登录后，可以避免后期节点之间有密码访问需要认为输入密码的麻烦，同时，当节点之间有文件或者数据传输时，需要认为输入节点密码，非常步方便，配置了免密，极大地削弱了人工干预集群的情况，这是有必要的。分别在三台节点上敲3个回车，就会在.ssh文件下会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）。09

Spark集群安装Spark安装包下载可以登录Spark官网/downloads.html中下载最新版本的Spark安装包，也可以在/dist/spark/下载Spark的历史版本。后期会将Spark与Hadoop体系的技术进行整合，这里选择的Spark版本是基于Hadoop2.6的spark-2.3.1-bin-hadoop2.6.tgz，如下图所示。单击之后即可下载，将下载好的压缩包保存起来。10

Spark集群搭建1.Spark集群构建流程2.Saprk集群搭建11任务2

12Spark集群构建流park分布式集群Spark集群规划安装配置支持软件运行平台构建安装配置Spark05启动Spark并验证

13Spark集群搭建1.2.配置Master节点在spark-env.sh中配置：JAVA_HOME:Spark集群的运行需要依赖java的环境变量，所以这里配置JAVA_HOME。SPARK_MASTER_HOST:配置Master节点的主机位置。SPARK_MASTER_PORT:配置集群提交任务端口。至此，Master节点配置完成。解压上传好的spark-2.3.1-bin-hadoop2.6.tgz安装包。tar-zxvf./spark-2.3.1-bin-hadoop2.6.tgz为了方便未来操作，将解压后的目录spark-2.3.1-bin-hadoop2.6名称修改为spark-2.3.1。mvspark-2.3.1-bin-hadoop2.6spark-2.3.1

14Spark集群搭建3.配置Worker节点同样，编辑/software/spark-2.3.1/conf/spark-env.sh文件，在后面追加如下配置：以上配置中的信息解释如下：SPARK_WORKER_CORES:配置Worker节点所有能支配的核心数，这里的核心数决定这未来在SparkWorker节点上能并行运行的task个数。SPARK_WORKE