Spark大数据技术与应用案例教程(上篇,共上中下3篇).pptxVIP

  • 1
  • 0
  • 约5.08万字
  • 约 335页
  • 2026-02-26 发布于安徽
  • 举报

Spark大数据技术与应用案例教程(上篇,共上中下3篇).pptx

Spark大数据技术与应用案例教程主讲教师:

目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架

目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据

项目一Spark入门

任务一搭建Spark单机环境任务二搭建Spark集群环境任务三开发并运行应用程序

第6页随着互联网和物联网技术的发展,人们产生和创造的数据呈爆炸式增长。传统的大数据处理框架HadoopMapReduce已无法满足人们对大规模数据的处理需求,因此一个更加高效的、用于处理大规模数据的、开源的分布式计算框架Spark诞生了。本项目将介绍Spark的相关知识,搭建Spark单机环境和集群环境,开发并运行应用程序。

第7页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。

第8页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。

第9页增强遵守规则的意识,养成按规矩行事的习惯。加强基础知识的学习,实现从量变到质变的转化,为个人的长远发展打下基础。

任务一搭建Spark单机环境

第11页不同的运行环境已搭建完成,接下来就可以开发并运行应用程序了。在此之前,需要选择合适的编程语言和开发工具,学习常用的PySpark命令,并掌握采用不同的部署模式运行应用程序的方法。本任务结合身份证户籍地查询案例,在PyCharm中开发Spark应用程序,并分别在Spark本地环境和集群环境中运行应用程序。

Spark官方网站对其的定义是“ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎”。由于Spark是UCBerkeleyAMPlaboratory(加州大学伯克利分校的AMP实验室)开源的类HadoopMapReduce的通用并行框架,是一个基于内存计算、支持分布式计算和并行计算的大数据处理框架。第12页一、Spark的发展历程

第13页一、Spark的发展历程Spark提供了丰富的工具和API,可以用于结构化数据处理、流数据处理、机器学习及图形处理等多种场景。Spark的发展历程如表所示。时间点说明2009年提供一个更快、更灵活、更易用的分布式计算框架,以便更好地进行大规模数据处理和机器学习等任务2010年Spark正式发布开源代码2013年Spark成为Apache软件基金会的孵化器项目,解决了一些bug,增加了新的功能,并改进了可用性问题2014年Spark成为Apache软件基金会的顶级开源项目之一,并发布了第一个稳定版本Spark1.0.0

第14页一、Spark的发展历程2015年Spark1.5.x系列版本发布,提升了Spark的性能,增加了一些机器学习算法和工具等,使得Spark变得更为全面和强大2016年Spark2.0.x系列版本发布,大幅度改进了API兼容性和查询优化器,支持结构化的流数据处理2017年Spark2.2.x系列版本发布,更新内容主要针的是系统的可用性、稳定性及代码润色2018年Spark2.4.x系列版本发布,进一步改进了流数据处理和机器学习功能,并集成了更多的深度学习框架时间点说明

第15页一、Spark的发展历程时间点说明2020年Spark3.0.0版本发布,能够更好地支持Python和R语言,并提供了更强大的分布式SQL查询引擎。加强了与ApacheArrow、DeltaLake等数据处理技术的集成2021年Spark3.1.1版本发布,提升了Python的可用性,增强了ANSISQL兼容性,加强了查询优化等2022年Spark3.3.0版本发布,提升了查询性能,简化了从传统数据仓库的迁移,提升效率2023年Spark3.4.0版本引入Python客户端,增强结构化数据流,增加PandasAPI的覆盖范围,提供Numpy输入支持,通过内存分析提高开发效率和可调用性等

第16页二、Spark的特点Spark是与HadoopMapReduce类似的通用并行计算框架,它拥有HadoopMapReduce所具有的优点,如高可靠、高扩展、高容错等。同时,Spark还兼容HDFS、Hive等,可以很好地与Hadoop系统融合,从而弥补Hadoop

文档评论(0)

1亿VIP精品文档

相关文档