二零二三年优质公开课SparkSQL概述.pptx

下载文档

0
0
约1.12千字
约 13页
2023-06-01 发布于安徽
举报
版权申诉
保障服务

二零二三年优质公开课SparkSQL概述.pptx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Spark SQL概述目录CONTENTS2为什么要学习Spark SQL1Spark SQL的前世今生 Spark SQL的前世今生PART 0101 Spark SQL的前世今生 Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shark建立在Hive的代码基础上，并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询，但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护，同时Shark依赖于Spark的版本。随着我们遇到了性能优化的上限，以及集成SQL的一些复杂的分析功能，我们发现Hive的MapReduce设计的框架限制了Shark的发展。在2014年7月1日的Spark?Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark?SQL上。什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优化，使对结构化数据的操作更加高效和方便。有多种方式去使用Spark SQL，包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特点，看你喜欢那种风格。为什么要学习Spark SQLPART 0202 为什么要学习Spark SQL我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群中去执行，大大简化了编写MapReduce程序的复杂性，由于MapReduce这种计算模型执行效率比较慢，所以Spark SQL应运而生，它是将Spark SQL转换成RDD，然后提交到集群中去运行，执行效率非常快。 1.易整合将sql查询与spark程序无缝混合，可以使用java、scala、python、R等语言的API操作。为什么要学习Spark SQL 2.统一的数据访问以相同的方式连接到任何数据源。为什么要学习Spark SQL 3.兼容Hive支持hiveSQL的语法。为什么要学习Spark SQL 为什么要学习Spark SQL4.标准的数据连接??可以使用行业标准的JDBC或ODBC连接。 1、介绍了Spark SQL的前世今生2、介绍了为什么要学习Spark SQL 谢谢观看

您可能关注的文档

文档评论（0）

中小学K12教育 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

二零二三年优质公开课SparkSQL概述.pptx