- 18
- 0
- 约2.61万字
- 约 174页
- 2024-02-26 发布于江苏
- 举报
Spark大数据技术与应用案例教程主讲教师:
目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架
目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据
项目三SparkSQL——结构化数据处理
任务一配置SparkSQL任务二查看商品信息任务三查询符合条件的商品信息任务四存储整理后的商品信息
第6页SparkSQL是ApacheSpark的一个组件,它提供了用于结构化数据处理的高级API。SparkSQL能够对数据文件、外部数据库、RDD和Hive表中的数据进行读取、处理和分析。本项目结合处理商品信息数据实例,首先介绍SparkSQL的特点、架构及运行原理,然后介绍创建DataFrame和获取DataFrame数据的方法,接着介绍查询DataFrame数据的方法,最后介绍存储DataFrame数据的方法。
第7页了解SparkSQL的特点。理解SparkSQL的架构。理解SparkSQL的运行原理。
第8页能配置SparkSQL。能读取数据并创建DataFrame。能获取DataFrame的数据。能使用不同的方式查询DataFrame的数据。能将DataFrame保存为不同的数据类型。
第9页培养举一反三的能力,学会融会贯通。
任务一配置SparkSQL
第11页大数据处理中通常会涉及结构化数据的处理,SparkSQL是Spark体系中处理结构化数据的有力工具。SparkSQL可以通过抽象数据结构DataFrame和结构化查询语言(structuredquerylanguage,SQL)两种方式来处理结构化数据。使用Spark读取、处理并分析MySQL数据库中的数据,需要安装MySQL并对SparkSQL进行配置。在配置SparkSQL之前,我们先了解一下SparkSQL的产生、特点、架构和运行原理。
第12页一、SparkSQL概述在2014年AMP实验室转向SparkSQL的开发。MapReduceHiveSharkSparkSQL1.SparkSQL的产生
第13页一、SparkSQL概述2.SparkSQL的特点SparkSQL主要用于处理结构化数据,SparkSQL具有以下特点。(1)支持多种数据源。(2)支持SQL查询。(3)提供了DataFrame。(4)支持多种编程语言。(5)支持与Spark的其他组件集成。
第14页二、SparkSQL的架构SparkSQL复用了Hive提供的元数据(Metastore)、HiveQL、用户自定义函数(UDF),以及序列化和反序列工具(SerDes),其架构如图所示。
第15页二、SparkSQL的架构SparkSQL的架构(1)Metastore(元数据)(2)Client(客户端)(3)Driver(驱动器)
第16页二、SparkSQL的架构(1)Metastore(元数据)Metastore的主要作用是记录SparkSQL应用程序使用的所有表和视图的元数据信息,这些元数据通常包括表名、列名、类型、分区信息、所在的位置等。
第17页二、SparkSQL的架构(2)Client(客户端)Client是用户与SparkSQL进行交互的主要接口,可以是各种不同的应用程序或工具,如命令行界面(command-lineinterface,CLI)、JDBC等。
第18页二、SparkSQL的架构(3)Driver(驱动器)Driver主要负责解析SQL语句、生成逻辑和物理查询计划、优化查询计划,以及调度任务的执行。Driver主要包含SQLParser、Catalyst、PhysicalPlan、Execution和CacheManager等组件。
第19页二、SparkSQL的架构(3)Driver(驱动器)①SQLParser(SQL解析器)②Catalyst(优化器)③PhysicalPlan(物理执行计划)④Execution(执行器)⑤CacheManager(缓存管理器)
第20页二、SparkSQL的架构(3)Driver(驱动器)SQLParser(SQL解析器)负责将用户输入的SQL语句转换成内部数据结构,以便驱动程序进一步处理。Catalyst(优化器)Catalyst可以在查询执行前对SQL进行语法分析、解析、优化和
您可能关注的文档
- windows 10案例教程 项目四 配置与管理用户账户.pptx
- windows 10案例教程 项目五 管理文件和文件夹.pptx
- windows 10案例教程 项目一 初识Windows 10.pptx
- 《大学语文》第八章 事务文书.pptx
- 《大学语文》第二章 立志敬业.pptx
- 《大学语文》第九章 公务文书.pptx
- 《大学语文》第七章 日常应用文.pptx
- 《大学语文》第三章 敦品励行.pptx
- 《大学语文》第十章 经济文书.pptx
- 《大学语文》第四章 人文情怀.pptx
- 统编版2025年春季新版七年级下册历史 第21课 明清时期的科技与文化 教案.docx
- 雅安雨城法院书记员招聘考试真题库2025.docx
- 2026届安徽合肥市高考一模高考语文试卷试题(含答案详解).pdf
- 【专题研究】国内外城市更新研究的最新进展.pdf
- 【专题研究】老旧城区改造居民满意度影响因素研究——以遂宁市老旧城区改造为例.pdf
- 【专题研究】关于旧城空间改造理论与创意设计案例的几点思考.pdf
- 西藏拉萨市高三下学期期末物理备考重点详解.docx
- 泾县法院书记员招聘笔试真题2025.pdf
- 2026年春【苏教版】-六年级数学下册-面积的变化.pptx
- 2026年春【苏教版】-六年级数学下册-7.pptx
最近下载
- 英语分级阅读:国家地理《Reading Explorer》A1-A2入门级 REF_unit 1A.pdf VIP
- 社区社会工作教学课件 周沛 易艳阳-第1章 社区概述.pptx VIP
- 急性胰腺炎急诊诊治专家共识(2024).pptx VIP
- 2025年AWS认证SavingsPlans在游戏行业中的应用案例专题试卷及解析.pdf VIP
- FDS火灾模拟软件使用教程.pptx VIP
- 2022版《小学数学新课程标准》的解读与梳理PPT课件.pptx VIP
- 制作一:布绒玩具制作.ppt VIP
- 胃潴留的护理.ppt
- 2026广东省佛山市南海公证处公开招聘公证员助理2人笔试参考题库及答案解析.docx VIP
- 解剖关节学课件.ppt VIP
原创力文档

文档评论(0)