第4章 Spark SQL结构化数据处理模块-教学设计.doc

第4章 Spark SQL结构化数据处理模块-教学设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

博学谷——让IT教学更简单,让IT学习更有效

PAGE12

PAGE2

《Spark大数据分析与实战(第2版)》

教学设计

课程名称:

授课年级:

授课学期:

教师姓名:

年月

课题名称

第4章SparkSQL结构化数据处理模块

计划课时

6课时

教学引入

对于不熟悉Scala语言或SparkAPI的用户,SparkSQL提供了一种基于SQL语句处理结构化数据的能力。该模块通过熟悉的SQL语法降低了分布式计算的学习门槛,使开发者无需深入掌握编程接口即可利用Spark框架的分布式计算能力。本章将针对SparkSQL的基本原理和使用方式进行详细讲解。

教学目标

使学生了解SparkSQL,能够说出SparkSQL的特点

使学生熟悉SparkSQL架构,能够说明Catalyst内部组件的运行流程

使学生熟悉DataFrame的基本概念,能够说明DataFrame与RDD在结构上的区别

使学生掌握DataFrame的创建,能够通过读取数据文件创建DataFrame

使学生掌握DataFrame的常用操作,能够使用DSL风格和SQL风格操作DataFrame

使学生掌握DataFrame的函数操作,能够使用标量函数和聚合函数操作DataFrame

使学生掌握RDD与DataFrame的转换,能够通过反射机制和编程方式将RDD转换成DataFrame

使学生了解Dataset,能够说出RDD、DataFrame与Dataset的区别

使学生掌握Dataset的创建,能够通过读取数据文件创建Dataset

使学生掌握SparkSQL操作数据源,能够使用SparkSQL操作MySQL和Hive

教学重点

DataFrame的创建

DataFrame的常用操作

DataFrame的函数操作

反射机制推断Schema

编程方式定义Schema

Dataset的创建

SparkSQL操作MySQL

SparkSQL操作Hive

教学难点

SparkSQL架构

DataFrame的函数操作

反射机制推断Schema

编程方式定义Schema

教学方式

课堂教学以PPT讲授为主,并结合实际操作进行教学

第一、二课时

(SparkSQL的简介、SparkSQL架构、DataFrame简介、DataFrame的创建、DataFrame的常用操作、DataFrame的函数操作)

一、复习巩固

教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固讲解。

二、通过直接导入的方式导入新课

SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作DataFrame的编程抽象结构数据模型,即带有元数据信息的RDD。SparkSQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrameAPI和DatasetAPI3种方式实现对结构化数据的处理。在本节课中,我们针对SparkSQL和DataFrame的基础知识,以及DataFrame基础操作进行讲解。

三、新课讲解

知识点1-SparkSQL的简介

教师通过PPT的方式讲解SparkSQL的简介。

介绍SparkSQL的特点

支持多种数据源

支持标准连接

支持无缝集成

知识点2-SparkSQL架构

教师通过PPT的方式讲解SparkSQL架构。

介绍SparkSQL底层架构

介绍Catalyst中各组件的运行流程

知识点3-DataFrame简介

教师通过PPT的方式讲解DataFrame简介。

介绍DataFrame的概念,以及它与RDD在结构上的区别

知识点4-DataFrame的创建

教师通过PPT结合实际操作的方式讲解DataFrame的创建。

介绍创建SparkSession对象的两种方式

演示基于YARN集群的运行模式启动SparkShell查看默认创建的SparkSession

介绍常见读取数据创建DataFrame的方法

演示通过读取JSON文件创建DataFrame

知识点5-DataFrame的常用操作

教师通过PPT结合实际操作的方式讲解DataFrame的常用操作。

DSL风格

SQL风格

知识点6-DataFrame的函数操作

教师通过PPT结合实际操作的方式讲解DataFrame的函数操作。

标量函数操作

内置标量函数

自定义标量函数

聚合函数操作

内置聚合函数

自定义聚合函数

四、归纳总结

教师回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导。

五、布置作业

教师通过高校教辅平台

文档评论(0)

弹弹 + 关注
实名认证
内容提供者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档