- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Spark的安装与基础应用1010.1了解Spark10.2Spark集群模式和Scala10.3本地模式安装与配置10.4集群模式——HadoopYARN模式的安装与配置10.5集群模式——Standalone模式的安装与配置10.6配置JupyterNotebook运行PythonSpark程序10.7PySpark运行WordCount10.8实训10部署并应用Spark
(1)了解Spark存在的原因和生态圈;(2)掌握Spark集群的部署和启动,以及使用HDFS的方法;(3)掌握JupyterNotebook的安装与部署;(4)熟练使用pyspark和sparksubmit执行程序;(5)熟练使用JupyterNotebook进行Python程序编写;(6)能编写PySpark版的WordCount,并能执行代码和分析执行过程。本模块先对Spark和Scala进行了介绍,也进行了Spark与Hadoop的比较。对Spark进行了本地模式和集群模式的安装,本地模式的搭建比较容易,测试也比较简单;而集群模式又进行了YARNclient和Standalone模式的安装与配置,每一种模式都通过pyspark方式进行了测试。为了更方便地操作Python,进行了JupyterNotebook的安装,并在之前所配置的三种模式下进行了测试。通过pyspark和sparksubmit方式运行WordCount.py,进行了单词统计,并对WordCount.py中的每一条命令进行了解释。目标和要求Spark的安装与基础应用
10.1了解Spark10.1.1Spark简介YARN的出现很好地解决了MapReduce任务的并行性和容错性问题,不过MapReduce的框架使得每个MapReduce任务都需要读写磁盘,进而增加了迭代型机器学习任务的时间。内存的读写速度远远高于磁盘,为了更充分地利用内存,避免MapReduce框架中多次读写磁盘的消耗,加州大学伯克利分校AMP实验室提出了一种新的基于内存计算的并行计算框架,这就是Spark。Spark是用于大规模数据处理的统一分析引擎,也用于人工智能。它扩展了广泛使用的MapReduce计算模型,高效地支撑更多计算模式,包括交互式查询和流处理。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。
10.1了解Spark10.1.1Spark简介Spark的特点如下:(1)高效性(2)通用性(3)易用性(4)兼容性
10.1了解Spark10.1.2Scala简介安装Spark之前,需要安装一种编程语言环境——Scala。Spark是用Scala语言实现的,而且主要支持Scala语言进行应用开发(也支持Python、Java和R语言等)。Spark的设计目的之一就是使程序的编写更快、更容易,因此选择了Scala,以下是Scala具有的突出优点:(1)Scala具备强大并发性,支持函数式编程,更好地支持分布式系统。(2)Scala语法简洁,可提供简洁的API。(3)Scala兼容Java,运行速度快,且能融合到Haoop生态圈中。
10.1了解Spark10.1.3Spark与Hadoop的比较Hadoop虽然已成为大数据技术的事实标准,但其本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,启动非常慢,有时甚至启动时间比执行时间还长,这是因为框架最初是为批处理而设计的,因此无法胜任实时、快速计算的需求,一般只适用于离线批处理的应用场景。与大多数数据处理框架不同,Spark并没有利用MapReduce作为计算框架,而是使用自己的分布式集群环境进行并行化计算。由于Spark是基于内存计算的并行计算框架,因此,利用它对数据集做的任何计算都会非常快,在大规模作业时可以大大节省时间。尽管Spark相对于Hadoop而言具有较大的优势,但Spark并不能完全替代Hadoop,它主要用于替代Hadoop中的MapReduce计算模型。其实,Spark已经很好地融入了Hadoop生态圈,成为其中的重要一员,它可以借助YARN实现资源调度管理,借助HDFS实现分布式存储。此外,Hadoop可以使用廉价的、异构的机器来进行分布式存储与计算,但是Spark对硬件、CPU及内存都有一定的要求。
10.2Spark集群模式和Scala在Spark官网文件(/docs/latest/cluster-overview.html)中,可以看到Spark的集群模式架构,如图10-1所示。10.2.1了解Spark的集群模式图10-1Spark的集群模式架构
1
您可能关注的文档
- Web前端设计基础教程:CSS基础PPT教学课件.pptx
- Web前端设计基础教程:HTML基础PPT教学课件.pptx
- Windows网络服务器配置与管理:DHCP服务器的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:DNS服务器的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:基本磁盘和动态磁盘的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:基于eNSP的综合组网PPT教学课件.pptx
- 电子商务运营与推广:网店活动PPT教学课件.pptx
- 工程制图:绪论PPT教学课件.ppt
- 构成与应用:立体构成概述PPT教学课件.pptx
- 构成与应用:认识色彩PPT教学课件.pptx
最近下载
- 《厂区道路安全》课件.pptx VIP
- 人教版道德与法治八年级下册《第三单元 人民当家作主》大单元整体教学设计[2022课标].docx
- 2025年驻马店职业技术学院单招职业适应性测试题库必考题.docx VIP
- 电子采矿许可证样式、编目要求.docx VIP
- 第5章大数据促进医疗和健康.pptx VIP
- 2024年深圳市高三年级第二次调研(二模) 英语试卷(含答案)原卷.pdf
- 2024年国家安全知识竞赛试题及答案(1-250题).doc
- 食醋生产卫生规范.pptx
- 历史论述题常见观点及论述范例2023~2024学年统编版七年级历史下册.docx VIP
- 2025铁岭师范高等专科学校单招数学模拟试题(附答案解析) 完整版2025.pdf VIP
文档评论(0)