- 6
- 0
- 约2.41万字
- 约 155页
- 2024-02-26 发布于江苏
- 举报
Spark大数据技术与应用案例教程主讲教师:
目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架
目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据
项目一Spark入门
任务一搭建Spark单机环境任务二搭建Spark集群环境任务三开发并运行应用程序
第6页随着互联网和物联网技术的发展,人们产生和创造的数据呈爆炸式增长。传统的大数据处理框架HadoopMapReduce已无法满足人们对大规模数据的处理需求,因此一个更加高效的、用于处理大规模数据的、开源的分布式计算框架Spark诞生了。本项目将介绍Spark的相关知识,搭建Spark单机环境和集群环境,开发并运行应用程序。
第7页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。
第8页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。
第9页增强遵守规则的意识,养成按规矩行事的习惯。加强基础知识的学习,实现从量变到质变的转化,为个人的长远发展打下基础。
任务一搭建Spark单机环境
第11页不同的运行环境已搭建完成,接下来就可以开发并运行应用程序了。在此之前,需要选择合适的编程语言和开发工具,学习常用的PySpark命令,并掌握采用不同的部署模式运行应用程序的方法。本任务结合身份证户籍地查询案例,在PyCharm中开发Spark应用程序,并分别在Spark本地环境和集群环境中运行应用程序。
Spark官方网站对其的定义是“ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎”。由于Spark是UCBerkeleyAMPlaboratory(加州大学伯克利分校的AMP实验室)开源的类HadoopMapReduce的通用并行框架,是一个基于内存计算、支持分布式计算和并行计算的大数据处理框架。第12页一、Spark的发展历程
第13页一、Spark的发展历程Spark提供了丰富的工具和API,可以用于结构化数据处理、流数据处理、机器学习及图形处理等多种场景。Spark的发展历程如表所示。时间点说明2009年提供一个更快、更灵活、更易用的分布式计算框架,以便更好地进行大规模数据处理和机器学习等任务2010年Spark正式发布开源代码2013年Spark成为Apache软件基金会的孵化器项目,解决了一些bug,增加了新的功能,并改进了可用性问题2014年Spark成为Apache软件基金会的顶级开源项目之一,并发布了第一个稳定版本Spark1.0.0
第14页一、Spark的发展历程2015年Spark1.5.x系列版本发布,提升了Spark的性能,增加了一些机器学习算法和工具等,使得Spark变得更为全面和强大2016年Spark2.0.x系列版本发布,大幅度改进了API兼容性和查询优化器,支持结构化的流数据处理2017年Spark2.2.x系列版本发布,更新内容主要针的是系统的可用性、稳定性及代码润色2018年Spark2.4.x系列版本发布,进一步改进了流数据处理和机器学习功能,并集成了更多的深度学习框架时间点说明
第15页一、Spark的发展历程时间点说明2020年Spark3.0.0版本发布,能够更好地支持Python和R语言,并提供了更强大的分布式SQL查询引擎。加强了与ApacheArrow、DeltaLake等数据处理技术的集成2021年Spark3.1.1版本发布,提升了Python的可用性,增强了ANSISQL兼容性,加强了查询优化等2022年Spark3.3.0版本发布,提升了查询性能,简化了从传统数据仓库的迁移,提升效率2023年Spark3.4.0版本引入Python客户端,增强结构化数据流,增加PandasAPI的覆盖范围,提供Numpy输入支持,通过内存分析提高开发效率和可调用性等
第16页二、Spark的特点Spark是与HadoopMapReduce类似的通用并行计算框架,它拥有HadoopMapReduce所具有的优点,如高可靠、高扩展、高容错等。同时,Spark还兼容HDFS、Hive等,可以很好地与Hadoop系统融合,从而弥补Hadoop
您可能关注的文档
- windows 10案例教程 项目四 配置与管理用户账户.pptx
- windows 10案例教程 项目五 管理文件和文件夹.pptx
- windows 10案例教程 项目一 初识Windows 10.pptx
- 《大学语文》第八章 事务文书.pptx
- 《大学语文》第二章 立志敬业.pptx
- 《大学语文》第九章 公务文书.pptx
- 《大学语文》第七章 日常应用文.pptx
- 《大学语文》第三章 敦品励行.pptx
- 《大学语文》第十章 经济文书.pptx
- 《大学语文》第四章 人文情怀.pptx
- 统编版2025年春季新版七年级下册历史 第21课 明清时期的科技与文化 教案.docx
- 雅安雨城法院书记员招聘考试真题库2025.docx
- 2026届安徽合肥市高考一模高考语文试卷试题(含答案详解).pdf
- 【专题研究】国内外城市更新研究的最新进展.pdf
- 【专题研究】老旧城区改造居民满意度影响因素研究——以遂宁市老旧城区改造为例.pdf
- 【专题研究】关于旧城空间改造理论与创意设计案例的几点思考.pdf
- 西藏拉萨市高三下学期期末物理备考重点详解.docx
- 泾县法院书记员招聘笔试真题2025.pdf
- 2026年春【苏教版】-六年级数学下册-面积的变化.pptx
- 2026年春【苏教版】-六年级数学下册-7.pptx
最近下载
- 英语分级阅读:国家地理《Reading Explorer》A1-A2入门级 REF_unit 1A.pdf VIP
- 社区社会工作教学课件 周沛 易艳阳-第1章 社区概述.pptx VIP
- 急性胰腺炎急诊诊治专家共识(2024).pptx VIP
- 2025年AWS认证SavingsPlans在游戏行业中的应用案例专题试卷及解析.pdf VIP
- FDS火灾模拟软件使用教程.pptx VIP
- 2022版《小学数学新课程标准》的解读与梳理PPT课件.pptx VIP
- 制作一:布绒玩具制作.ppt VIP
- 胃潴留的护理.ppt
- 2026广东省佛山市南海公证处公开招聘公证员助理2人笔试参考题库及答案解析.docx VIP
- 解剖关节学课件.ppt VIP
原创力文档

文档评论(0)