第4章 Spark SQL结构化数据处理模块.pptxVIP

  • 8
  • 0
  • 约2.69万字
  • 约 96页
  • 2025-04-27 发布于浙江
  • 举报

第4章SparkSQL结构化数据处理模块

《Spark大数据分析与实战(第2版)》

熟悉DataFrame的基本概念,能够说明DataFrame与RDD在结构上的区别

了解SparkSQL,能够说出SparkSQL的特点

熟悉SparkSQL架构,能够说明Catalyst内部组件的运行流程

掌握DataFrame的常用操作,能够使用DSL风格和SQL风格操作DataFrame

掌握DataFrame的创建,能够通过读取文件创建DataFrame

学习目标/Target

了解Dataset,能够说明RDD、DataFrame与Dataset的区别

掌握DataFrame的函数操作,能够通过标量函数和聚合函数操作DataFrame

掌握Dataset的创建,能够通过读取文件创建Dataset

掌握RDD与DataFrame的转换,能够通过反射机制和编程方式将RDD转换成DataFrame

掌握SparkSQL操作数据源,能够使用SparkSQL操作MySQL和Hive

学习目标/Target

对于那些对Scala语言和Spark常用API不了解,但希望能够利用Spark框架强大数

据分析能力的用户,Spark提供了一种结构化数据处理模块SparkSQL,SparkSQL模块使用户可以利用SQL语句处理结构化数据。本章将针对SparkSQ

文档评论(0)

1亿VIP精品文档

相关文档