- 8
- 0
- 约2.69万字
- 约 96页
- 2025-04-27 发布于浙江
- 举报
第4章SparkSQL结构化数据处理模块
《Spark大数据分析与实战(第2版)》
熟悉DataFrame的基本概念,能够说明DataFrame与RDD在结构上的区别
了解SparkSQL,能够说出SparkSQL的特点
熟悉SparkSQL架构,能够说明Catalyst内部组件的运行流程
掌握DataFrame的常用操作,能够使用DSL风格和SQL风格操作DataFrame
掌握DataFrame的创建,能够通过读取文件创建DataFrame
学习目标/Target
了解Dataset,能够说明RDD、DataFrame与Dataset的区别
掌握DataFrame的函数操作,能够通过标量函数和聚合函数操作DataFrame
掌握Dataset的创建,能够通过读取文件创建Dataset
掌握RDD与DataFrame的转换,能够通过反射机制和编程方式将RDD转换成DataFrame
掌握SparkSQL操作数据源,能够使用SparkSQL操作MySQL和Hive
学习目标/Target
对于那些对Scala语言和Spark常用API不了解,但希望能够利用Spark框架强大数
据分析能力的用户,Spark提供了一种结构化数据处理模块SparkSQL,SparkSQL模块使用户可以利用SQL语句处理结构化数据。本章将针对SparkSQ
您可能关注的文档
- 《中国旅游文化》课件_中国旅游文化课件 (3).pptx
- 《中国旅游文化》课件_中国旅游文化课件.pptx
- 《中外民俗课件》课件_中外民俗课件.pptx
- Python数据分析与实战(微课版)课件 第1章 Python数据分析概述.pptx
- Python数据分析与实战(微课版)课件 第3章 pandas统计分析基础.pptx
- Python数据分析与实战(微课版)课件 第6章 使用scikit-learn构建模型.pptx
- Python数据分析与实战(微课版)课件 第9章 餐饮企业客户流失预测.pptx
- 常用实验动物的比较解剖学及其脏器的病理取材方法.pptx
- 第3章 Spark RDD弹性分布式数据集.pptx
- 第5章 HBase分布式数据库.pptx
- 直接偏好优化综述 A Survey of Direct Preference Optimization.pdf
- 英伟达 宇宙世界基金会物理AI模型平台.pdf
- 用于图神经网络的增强汤.pdf
- 在受限条件下学习表示 Learning representations under restricted conditions.pdf
- 用基础模型自动搜索人工生命.pdf
- 直面退货退款滥用:反思与反抗 2025 行业洞察:如何遏制退货滥用.pdf
- 因果决策综述 A Review of Causal Decision Making.pdf
- 在时间平滑假设下深度神经网络的自适应与正则化.pdf
- 信息驱动的机器学习数据科学作为一门工程学科.pdf
- 熊猫债市场持续扩容,打造跨境融资新蓝海.pdf
最近下载
- 土石方项目工程施工组织设计样本.doc VIP
- 保险稽查审计指引第7号:再保险业务分册(1).pdf VIP
- 2025《基于ensp的中小型企业网络方案设计》15000字.doc
- 【浙江】2025年高考全国一卷数学高考真题解析.doc VIP
- 《EL2000智能型消防应急照明与疏散指示系统监控软件使用说明书V1.0》.pdf VIP
- 《电力建设工程预算定额章节说明》(2018年版)第一册建筑工程.pdf VIP
- 2026-2031中国牛肉饼行业发展研究报告.docx VIP
- 2026年云锡新材料(东营)有限公司招聘备考题库带答案详解.docx VIP
- 烈火之剑攻略(图文完美攻略)3.pdf VIP
- 用电办理授权委托书.PDF VIP
原创力文档

文档评论(0)