第2章 Spark基础教学课件.pptx

下载文档

2
0
约4.36千字
约 118页
2025-04-17 发布于四川
举报
版权申诉
保障服务

第2章 Spark基础教学课件.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第2章Spark基础;学习目标/Target;学习目标/Target;学习目标/Target;章节概述/Summary;目录/Contents;目录/Contents;初识Spark;2.1.1Spark概述;2.1.1Spark概述;2.1.1Spark概述;;;2.1.2Spark的特点;;2.1.3Spark应用场景;2.1.3Spark应用场景;2.1.4Spark与MapReduce的区别;2.1.4Spark与MapReduce的区别;2.1.4Spark与MapReduce的区别;Spark基本架构及运行流程;2.2.1 基本概念;2.2.1 基本概念;2.2.1 基本概念;2.2.1 基本概念;2.2.2Spark基本架构;2.2.2Spark基本架构;2.2.2Spark基本架构;2.2.2Spark基本架构;2.2.3Spark运行流程;2.2.3Spark运行流程;2.2.3Spark运行流程;2.2.3Spark运行流程;Spark的部署模式;2.3.1基于本地模式部署Spark;2.3.1基于本地模式部署Spark;2.1.4Spark与Hadoop的区别;部署Spark;2.4.1基于Local模式部署Spark;Local模式是指在一台服务器上运行Spark，只需在一台安装JDK的服务器中解压Spark安装包便可直接使用，通常用于本地程序的开发和测试。接下来，使用虚拟机Hadoop1演示如何基于Local模式部署Spark，具体操作步骤如下。;上传Spark安装包;启动Spark;;基于Standalone模式部署Spark时，需要在多台安装JDK的服务器中安装Spark，并且通过修改Spark的配置文件来指定运行Master和Worker的服务器。接下来，我们将讲解如何使用虚拟机Hadoop1、Hadoop2和Hadoop3，基于Standalone模式部署Spark，具体操作步骤如下。;集群规划主要是为了明确Master和Worker所运行的虚拟机。;在虚拟机Hadoop1创建/export/servers/standalone目录，用于存放Standalone模式部署Spark的安装目录，具体命令如下。;在虚拟机Hadoop1中，进入Spark存放配置文件的目录/export/servers/standalone/spark-3.3.0-bin-hadoop3/conf，复制该目录中的模板文件spark-env.sh.template并将其重命名为spark-env.sh，具体命令如下。;修改配置文件spark-env.sh;在虚拟机Hadoop1中，进入Spark存放配置文件的目录/export/servers/standalone/spark-3.3.0-bin-hadoop3/conf，复制该目录中的模板文件spark-defaults.conf.template并将其重命名为spark-defaults.conf，具体命令如下。;在虚拟机Hadoop1中，进入Spark存放配置文件的目录/export/servers/standalone/spark-3.3.0-bin-hadoop3/conf，复制该目录中的模板文件workers.template并将其重命名为workers，具体命令如下。;在HDFS中创建Spark记录日志的目录，在虚拟机Hadoop1执行如下命令。;通过Spark提供的一键启动脚本start-all.sh启动Spark集群。在虚拟机Hadoop1的目录/export/servers/standalone/spark-3.3.0-bin-hadoop3执行如下命令。;通过Spark提供的一键启动脚本start-history-server.sh启动历史服务器。在虚拟机Hadoop1的目录/export/servers/standalone/spark-3.3.0-bin-hadoop3执行如下命令。;（1）在浏览器中输入地址61:8686/查看MasterWebUI。;（2）在浏览器中分别输入地址62:8082和63:8082/查看WorkerWebUI。;（3）在浏览器中输入地址61:18081/查看历史服务器WebUI。;;基于HighAvailability模式部署Spark时，同样需要在多台安装JDK的服务器中安装Spark，并且通过修改Spark的配置文件来指定运行Worker的服务器，以及ZooKeeper集群的地址。接下来，我们将讲解如何使用虚拟机Hadoop1、Hadoop2和Hadoop3，基于HighAvailability模式部署Spar