- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Spark环境搭建
目录/Contents01Standalone模式部署02JDK安装03Hadoop集群部署04ZooKeeper集群部署05Scala安装
Standalone模式部署01
Standalone模式部署即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一定程度上说,该模式是其他两种的基础。借鉴Spark开发模式,我们可以得到一种开发新型计算框架的一般思路:先设计出它的standalone模式,为了快速开发,起初不需要考虑服务(比如master/slave)的容错性,之后再开发相应的wrapper,将stanlone模式下的服务原封不动的部署到资源管理系统yarn或者mesos上,由资源管理系统负责服务本身的容错。目前Spark在standalone模式下是没有任何单点故障问题的,这是借助zookeeper实现的,思想类似于HBasemaster单点故障解决方案。将Sparkstandalone与MapReduce比较,会发现它们两个在架构上是完全一致的:
Standalone模式部署1.下载安装spark2.配置spark在spark官网下载tar.gz安装包,本节使用的是spark2.3.2。在下载安装包时需要对应好Hadoop的版本,本书使用的是Hadoop2.7.4安装包解压完成后需要进行相关的配置,可以在一台机器上配置好之后使用scp命令copy到其他机器上,在配置之前需要将四台虚拟机关机后做一个快照,方便后面两种模式的部署。
SparkonYARN模式部署02
SparkonYARN模式部署这是一种很有前景的部署模式。但限于YARN自身的发展,目前仅支持粗粒度模式(Coarse-grainedMode)。这是由于YARN上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生变化,不过这个已经在YARN计划中了。sparkonyarn支持两种模式:1)yarn-cluster:适用于生产环境;2)yarn-client:适用于交互、调试,希望立即看到app的输出
SparkonYARN模式部署安装包下载解压2.配置spark-env.sh3.重命名slaves.template文件4.配置slaves文件5.环境变量配置6.文件分发7.启动集群8.验证9.运行实例10.任务监控
SparkHA集群部署03
SparkHA集群部署SparkStandalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:(1)基于文件系统的单点恢复(Single-NodeRecoverywithLocalFileSystem)。主要用于开发或测试环境。当spark提供目录保存sparkApplication和worker的注册信息,并将他们的恢复状态写入该目录中,这时,一旦Master发生故障,就可以通过重新启动Master进程(sbin/start-master.sh),恢复已运行的sparkApplication和worker的注册信息。(2)基于zookeeper的StandbyMasters(StandbyMasterswithZooKeeper)。用于生产模式。其基本原理是通过zookeeper来选举一个Master,其他的Master处于Standby状态。将spark集群连接到同一个ZooKeeper实例并启动多个Master,利用zookeeper提供的选举和状态保存功能,可以使一个Master被选举成活着的master,而其他Master处于Standby状态。如果现任Master死去,另一个Master会通过选举产生,并恢复到旧的Master状态,然后恢复调度。整个恢复过程可能要1-2分钟。
SparkHA集群部署下载解压安装包2.配置spark-env.sh3.重命名slaves.template文件4.配置slaves文件5.环境变量配置6.文件分发7.启动集群8.验证
感谢大家的聆听
您可能关注的文档
- Spark大数据分析 课件 1.1 大数据简介与相关技术.pptx
- Spark大数据分析 课件 1.2 Spark简介.pptx
- Spark大数据分析 课件 1.3 其他数据处理框架.pptx
- Spark大数据分析 课件 2.1 集群环境准备.pptx
- Spark大数据分析 课件 2.3 Spark运行架构与原理.pptx
- Spark大数据分析 课件 2.4 Spark Shell.pptx
- Spark大数据分析 课件 3.1 Scala简介.pptx
- Spark大数据分析 课件 3.2 Scala环境准备.pptx
- Spark大数据分析 课件 3.3 Scala基础语法.pptx
- Spark大数据分析 课件 3.4 Scala面向对象.pptx
最近下载
- 装饰装修工程施工组织方案设计[技术标].docx
- 2024-2025学年河南省郑州市管城区五年级(上)期末语文试卷(全解析版).docx
- 2024子宫内膜癌分子分型临床应用中国专家共识(完整版) .pdf
- 膀胱癌讲课图文ppt课件.ppt
- 2023-2024学年湖南长沙长郡中学八年级物理第一学期期末教学质量检测试题含解析.pdf VIP
- 2024年重庆高考化学试卷(解析版).docx
- 三星数码相机 SAMSUNG WB110说明书.pdf
- DG∕T J 08-2004A-2014_太阳能热水系统应用技术规程.pdf
- 电动车棚施工协议集合4篇.docx
- 浅析工程造价管理与投资控制.pdf VIP
文档评论(0)