Hadoop大数据开发实例教程：Spark的安装与基础应用PPT教学课件.pptx

下载文档

0
0
约1.33万字
约 65页
2025-03-31 发布于浙江
举报
版权申诉
保障服务

Hadoop大数据开发实例教程：Spark的安装与基础应用PPT教学课件.pptx

1、本文档共65页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Spark的安装与基础应用1010.1了解Spark10.2Spark集群模式和Scala10.3本地模式安装与配置10.4集群模式——HadoopYARN模式的安装与配置10.5集群模式——Standalone模式的安装与配置10.6配置JupyterNotebook运行PythonSpark程序10.7PySpark运行WordCount10.8实训10部署并应用Spark

（1）了解Spark存在的原因和生态圈；（2）掌握Spark集群的部署和启动，以及使用HDFS的方法；（3）掌握JupyterNotebook的安装与部署；（4）熟练使用pyspark和sparksubmit执行程序；（5）熟练使用JupyterNotebook进行Python程序编写；（6）能编写PySpark版的WordCount，并能执行代码和分析执行过程。本模块先对Spark和Scala进行了介绍，也进行了Spark与Hadoop的比较。对Spark进行了本地模式和集群模式的安装，本地模式的搭建比较容易，测试也比较简单；而集群模式又进行了YARNclient和Standalone模式的安装与配置，每一种模式都通过pyspark方式进行了测试。为了更方便地操作Python，进行了JupyterNotebook的安装，并在之前所配置的三种模式下进行了测试。通过pyspark和sparksubmit方式运行WordCount.py，进行了单词统计，并对WordCount.py中的每一条命令进行了解释。目标和要求Spark的安装与基础应用

10.1了解Spark10.1.1Spark简介YARN的出现很好地解决了MapReduce任务的并行性和容错性问题，不过MapReduce的框架使得每个MapReduce任务都需要读写磁盘，进而增加了迭代型机器学习任务的时间。内存的读写速度远远高于磁盘，为了更充分地利用内存，避免MapReduce框架中多次读写磁盘的消耗，加州大学伯克利分校AMP实验室提出了一种新的基于内存计算的并行计算框架，这就是Spark。Spark是用于大规模数据处理的统一分析引擎，也用于人工智能。它扩展了广泛使用的MapReduce计算模型，高效地支撑更多计算模式，包括交互式查询和流处理。Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。

10.1了解Spark10.1.1Spark简介Spark的特点如下：（1）高效性（2）通用性（3）易用性（4）兼容性

10.1了解Spark10.1.2Scala简介安装Spark之前，需要安装一种编程语言环境——Scala。Spark是用Scala语言实现的，而且主要支持Scala语言进行应用开发（也支持Python、Java和R语言等）。Spark的设计目的之一就是使程序的编写更快、更容易，因此选择了Scala，以下是Scala具有的突出优点：（1）Scala具备强大并发性，支持函数式编程，更好地支持分布式系统。（2）Scala语法简洁，可提供简洁的API。（3）Scala兼容Java，运行速度快，且能融合到Haoop生态圈中。

10.1了解Spark10.1.3Spark与Hadoop的比较Hadoop虽然已成为大数据技术的事实标准，但其本身还存在诸多缺陷，最主要的缺陷是其MapReduce计算模型延迟过高，启动非常慢，有时甚至启动时间比执行时间还长，这是因为框架最初是为批处理而设计的，因此无法胜任实时、快速计算的需求，一般只适用于离线批处理的应用场景。与大多数数据处理框架不同，Spark并没有利用MapReduce作为计算框架，而是使用自己的分布式集群环境进行并行化计算。由于Spark是基于内存计算的并行计算框架，因此，利用它对数据集做的任何计算都会非常快，在大规模作业时可以大大节省时间。尽管Spark相对于Hadoop而言具有较大的优势，但Spark并不能完全替代Hadoop，它主要用于替代Hadoop中的MapReduce计算模型。其实，Spark已经很好地融入了Hadoop生态圈，成为其中的重要一员，它可以借助YARN实现资源调度管理，借助HDFS实现分布式存储。此外，Hadoop可以使用廉价的、异构的机器来进行分布式存储与计算，但是Spark对硬件、CPU及内存都有一定的要求。

10.2Spark集群模式和Scala在Spark官网文件（/docs/latest/cluster-overview.html）中，可以看到Spark的集群模式架构，如图10-1所示。10.2.1了解Spark的集群模式图10-1Spark的集群模式架构

您可能关注的文档

文档评论（0）

点 + 关注: 实名认证

内容提供者

知识分享

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Hadoop大数据开发实例教程：Spark的安装与基础应用PPT教学课件.pptx