《Spark大数据技术与应用案例教程》全套教学课件.pptx

下载文档

145
0
约17.9万字
约 1203页
2024-07-16 发布于浙江
举报
版权申诉
保障服务

《Spark大数据技术与应用案例教程》全套教学课件.pptx

1、本文档共1203页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Spark大数据技术与应用案例教程主讲教师：全套可编辑PPT课件

目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架

目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷业务数据

项目一Spark入门全套可编辑PPT课件

任务一搭建Spark单机环境任务二搭建Spark集群环境任务三开发并运行应用程序

第6页随着互联网和物联网技术的发展，人们产生和创造的数据呈爆炸式增长。传统的大数据处理框架HadoopMapReduce已无法满足人们对大规模数据的处理需求，因此一个更加高效的、用于处理大规模数据的、开源的分布式计算框架Spark诞生了。本项目将介绍Spark的相关知识，搭建Spark单机环境和集群环境，开发并运行应用程序。

第7页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。

第8页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。

第9页增强遵守规则的意识，养成按规矩行事的习惯。加强基础知识的学习，实现从量变到质变的转化，为个人的长远发展打下基础。

任务一搭建Spark单机环境

第11页不同的运行环境已搭建完成，接下来就可以开发并运行应用程序了。在此之前，需要选择合适的编程语言和开发工具，学习常用的PySpark命令，并掌握采用不同的部署模式运行应用程序的方法。本任务结合身份证户籍地查询案例，在PyCharm中开发Spark应用程序，并分别在Spark本地环境和集群环境中运行应用程序。

Spark官方网站对其的定义是“ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎”。由于Spark是UCBerkeleyAMPlaboratory（加州大学伯克利分校的AMP实验室）开源的类HadoopMapReduce的通用并行框架，是一个基于内存计算、支持分布式计算和并行计算的大数据处理框架。第12页一、Spark的发展历程

第13页一、Spark的发展历程Spark提供了丰富的工具和API，可以用于结构化数据处理、流数据处理、机器学习及图形处理等多种场景。Spark的发展历程如表所示。时间点说明2009年提供一个更快、更灵活、更易用的分布式计算框架，以便更好地进行大规模数据处理和机器学习等任务2010年Spark正式发布开源代码2013年Spark成为Apache软件基金会的孵化器项目，解决了一些bug，增加了新的功能，并改进了可用性问题2014年Spark成为Apache软件基金会的顶级开源项目之一，并发布了第一个稳定版本Spark1.0.0

第14页一、Spark的发展历程2015年Spark1.5.x系列版本发布，提升了Spark的性能，增加了一些机器学习算法和工具等，使得Spark变得更为全面和强大2016年Spark2.0.x系列版本发布，大幅度改进了API兼容性和查询优化器，支持结构化的流数据处理2017年Spark2.2.x系列版本发布，更新内容主要针的是系统的可用性、稳定性及代码润色2018年Spark2.4.x系列版本发布，进一步改进了流数据处理和机器学习功能，并集成了更多的深度学习框架时间点说明

第15页一、Spark的发展历程时间点说明2020年Spark3.0.0版本发布，能够更好地支持Python和R语言，并提供了更强大的分布式SQL查询引擎。加强了与ApacheArrow、DeltaLake等数据处理技术的集成2021年Spark3.1.1版本发布，提升了Python的可用性，增强了ANSISQL兼容性，加强了查询优化等2022年Spark3.3.0版本发布，提升了查询性能，简化了从传统数据仓库的迁移，提升效率2023年Spark3.4.0版本引入Python客户端，增强结构化数据流，增加PandasAPI的覆盖范围，提供Numpy输入支持，通过内存分析提高开发效率和可调用性等

第16页二、Spark的特点Spark是与HadoopMapReduce类似的通用并行计算框架，它拥有HadoopMapReduce所具有的优点，如高可靠、高扩展、高容错等。同时，Spark还兼容HDFS、Hive等，可以很好地与Ha

您可能关注的文档

文档评论（0）

163 + 关注: 实名认证

内容提供者

知识分享

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《Spark大数据技术与应用案例教程》全套教学课件.pptx