- 1、本文档共1203页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Spark大数据技术与应用案例教程主讲教师:全套可编辑PPT课件
目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架
目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据
项目一Spark入门全套可编辑PPT课件
任务一搭建Spark单机环境任务二搭建Spark集群环境任务三开发并运行应用程序
第6页随着互联网和物联网技术的发展,人们产生和创造的数据呈爆炸式增长。传统的大数据处理框架HadoopMapReduce已无法满足人们对大规模数据的处理需求,因此一个更加高效的、用于处理大规模数据的、开源的分布式计算框架Spark诞生了。本项目将介绍Spark的相关知识,搭建Spark单机环境和集群环境,开发并运行应用程序。
第7页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。
第8页了解Spark的发展历程、特点与应用场景。熟悉Spark的生态系统、运行架构与运行基本流程。掌握Spark的部署模式、PySpark命令与运行应用程序的方法。
第9页增强遵守规则的意识,养成按规矩行事的习惯。加强基础知识的学习,实现从量变到质变的转化,为个人的长远发展打下基础。
任务一搭建Spark单机环境
第11页不同的运行环境已搭建完成,接下来就可以开发并运行应用程序了。在此之前,需要选择合适的编程语言和开发工具,学习常用的PySpark命令,并掌握采用不同的部署模式运行应用程序的方法。本任务结合身份证户籍地查询案例,在PyCharm中开发Spark应用程序,并分别在Spark本地环境和集群环境中运行应用程序。
Spark官方网站对其的定义是“ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎”。由于Spark是UCBerkeleyAMPlaboratory(加州大学伯克利分校的AMP实验室)开源的类HadoopMapReduce的通用并行框架,是一个基于内存计算、支持分布式计算和并行计算的大数据处理框架。第12页一、Spark的发展历程
第13页一、Spark的发展历程Spark提供了丰富的工具和API,可以用于结构化数据处理、流数据处理、机器学习及图形处理等多种场景。Spark的发展历程如表所示。时间点说明2009年提供一个更快、更灵活、更易用的分布式计算框架,以便更好地进行大规模数据处理和机器学习等任务2010年Spark正式发布开源代码2013年Spark成为Apache软件基金会的孵化器项目,解决了一些bug,增加了新的功能,并改进了可用性问题2014年Spark成为Apache软件基金会的顶级开源项目之一,并发布了第一个稳定版本Spark1.0.0
第14页一、Spark的发展历程2015年Spark1.5.x系列版本发布,提升了Spark的性能,增加了一些机器学习算法和工具等,使得Spark变得更为全面和强大2016年Spark2.0.x系列版本发布,大幅度改进了API兼容性和查询优化器,支持结构化的流数据处理2017年Spark2.2.x系列版本发布,更新内容主要针的是系统的可用性、稳定性及代码润色2018年Spark2.4.x系列版本发布,进一步改进了流数据处理和机器学习功能,并集成了更多的深度学习框架时间点说明
第15页一、Spark的发展历程时间点说明2020年Spark3.0.0版本发布,能够更好地支持Python和R语言,并提供了更强大的分布式SQL查询引擎。加强了与ApacheArrow、DeltaLake等数据处理技术的集成2021年Spark3.1.1版本发布,提升了Python的可用性,增强了ANSISQL兼容性,加强了查询优化等2022年Spark3.3.0版本发布,提升了查询性能,简化了从传统数据仓库的迁移,提升效率2023年Spark3.4.0版本引入Python客户端,增强结构化数据流,增加PandasAPI的覆盖范围,提供Numpy输入支持,通过内存分析提高开发效率和可调用性等
第16页二、Spark的特点Spark是与HadoopMapReduce类似的通用并行计算框架,它拥有HadoopMapReduce所具有的优点,如高可靠、高扩展、高容错等。同时,Spark还兼容HDFS、Hive等,可以很好地与Ha
您可能关注的文档
- 《Linux 操作系统及应用技术(第2版)》全套教学课件.pptx
- 《Python数据分析与应用案例教程》全套教学课件.pptx
- 《大数据分析与应用》全套教学课件.pptx
- 《网络操作系统—Windows Server 2012 R2配置与管理》全套教学课件.pptx
- 《网络综合布线》全套教学课件.pptx
- 《微信小程序开发案例教程》全套教学课件.pptx
- 《无线局域网技术与实践》全套教学课件.pptx
- 船舶管理(轮机专业1类)全套教学课件.pptx
- 船舶引航(航道与引航)全套教学课件.pptx
- 物联网技术基础(物联网及相关专业)全套教学课件.pptx
- 市直机关工委及个人述职述廉2024年党建工作情况报告材料.docx
- 区委书记在2025年一季度经济运行部署会议上的讲话发言材料.docx
- 市直机关单位、卫健委党支部2024年工作述职报告材料.docx
- 市委副书记、市长在2025年市委城乡规划委员会第一次会议上的讲话发言材料.docx
- 某单位领导干部2024年生活会、组织生活会对照检查材料(对照“四个带头”).docx
- 2024年民政局、宣传部、教育局基层主要领导个人述责述廉报告材料.docx
- 2025年2月党支部“三会一课”参考主题方案.docx
- 在某中学2025年春季开学典礼上的讲话:以“三重境界”燃动新学期.docx
- 2024年度领导干部专题民主生活会、组织生活会对照检查材料(四个带头)及学习研讨会上的发言材料.docx
- 市纪委市监委2025年度纪检监察工作计划.docx
文档评论(0)