《Spark大数据技术与应用案例教程》 项目三: Spark SQL——结构化数据处理.pptxVIP

  • 18
  • 0
  • 约2.61万字
  • 约 174页
  • 2024-02-26 发布于江苏
  • 举报

《Spark大数据技术与应用案例教程》 项目三: Spark SQL——结构化数据处理.pptx

Spark大数据技术与应用案例教程主讲教师:

目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架

目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据

项目三SparkSQL——结构化数据处理

任务一配置SparkSQL任务二查看商品信息任务三查询符合条件的商品信息任务四存储整理后的商品信息

第6页SparkSQL是ApacheSpark的一个组件,它提供了用于结构化数据处理的高级API。SparkSQL能够对数据文件、外部数据库、RDD和Hive表中的数据进行读取、处理和分析。本项目结合处理商品信息数据实例,首先介绍SparkSQL的特点、架构及运行原理,然后介绍创建DataFrame和获取DataFrame数据的方法,接着介绍查询DataFrame数据的方法,最后介绍存储DataFrame数据的方法。

第7页了解SparkSQL的特点。理解SparkSQL的架构。理解SparkSQL的运行原理。

第8页能配置SparkSQL。能读取数据并创建DataFrame。能获取DataFrame的数据。能使用不同的方式查询DataFrame的数据。能将DataFrame保存为不同的数据类型。

第9页培养举一反三的能力,学会融会贯通。

任务一配置SparkSQL

第11页大数据处理中通常会涉及结构化数据的处理,SparkSQL是Spark体系中处理结构化数据的有力工具。SparkSQL可以通过抽象数据结构DataFrame和结构化查询语言(structuredquerylanguage,SQL)两种方式来处理结构化数据。使用Spark读取、处理并分析MySQL数据库中的数据,需要安装MySQL并对SparkSQL进行配置。在配置SparkSQL之前,我们先了解一下SparkSQL的产生、特点、架构和运行原理。

第12页一、SparkSQL概述在2014年AMP实验室转向SparkSQL的开发。MapReduceHiveSharkSparkSQL1.SparkSQL的产生

第13页一、SparkSQL概述2.SparkSQL的特点SparkSQL主要用于处理结构化数据,SparkSQL具有以下特点。(1)支持多种数据源。(2)支持SQL查询。(3)提供了DataFrame。(4)支持多种编程语言。(5)支持与Spark的其他组件集成。

第14页二、SparkSQL的架构SparkSQL复用了Hive提供的元数据(Metastore)、HiveQL、用户自定义函数(UDF),以及序列化和反序列工具(SerDes),其架构如图所示。

第15页二、SparkSQL的架构SparkSQL的架构(1)Metastore(元数据)(2)Client(客户端)(3)Driver(驱动器)

第16页二、SparkSQL的架构(1)Metastore(元数据)Metastore的主要作用是记录SparkSQL应用程序使用的所有表和视图的元数据信息,这些元数据通常包括表名、列名、类型、分区信息、所在的位置等。

第17页二、SparkSQL的架构(2)Client(客户端)Client是用户与SparkSQL进行交互的主要接口,可以是各种不同的应用程序或工具,如命令行界面(command-lineinterface,CLI)、JDBC等。

第18页二、SparkSQL的架构(3)Driver(驱动器)Driver主要负责解析SQL语句、生成逻辑和物理查询计划、优化查询计划,以及调度任务的执行。Driver主要包含SQLParser、Catalyst、PhysicalPlan、Execution和CacheManager等组件。

第19页二、SparkSQL的架构(3)Driver(驱动器)①SQLParser(SQL解析器)②Catalyst(优化器)③PhysicalPlan(物理执行计划)④Execution(执行器)⑤CacheManager(缓存管理器)

第20页二、SparkSQL的架构(3)Driver(驱动器)SQLParser(SQL解析器)负责将用户输入的SQL语句转换成内部数据结构,以便驱动程序进一步处理。Catalyst(优化器)Catalyst可以在查询执行前对SQL进行语法分析、解析、优化和

文档评论(0)

1亿VIP精品文档

相关文档