- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术创新,变革未来
Spark SQL技术平台详解
内容
Spark SQL介绍
Spark SQL API
DataFrame开发
Spark SQL示例
Spark SQL优化
Spark SQL是什么
Spark SQL的前生是Shark
基于Spark最佳的SQL计算
专门用于处理结构化数据
支持多种数据源,包括Hive、parquet、orc、
JSON、 RDBMS、RDD等
性能优化上做的很好
使用简单,代码易读
给熟悉SQL的技术人员提供快速访问大数据
的工具
Spark SQL API
SQL
与hive类似
有SparkSQL命令行
有thriftserver和beeline客户端
DataFrame
DataFrame
可以在spark程序中使用SQL
与RDD类似的分布式数据集,但增加了列的
概念
之前是SchemaRDD
将来是DataSet
其API支持Scala/Java/Python/R
SQL与控制语句的结合
DataFrame开发
创建SQLContext对象
生成DataFrame,可来自RDD或其他数据源
执行Transformation ,调用DataFrameAPI或
者通过函数执行sql
执行Action ,返回结果或保存到文件中
DataFrame开发
创建SQLContext对象
// 导入语句,可以隐式地将RDD转化成DataFrame
import sqlContext.implicits._
// 首先用SparkContext对象创建SQLContext对象
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
DataFrame开发
RDD生成DataFrame
//参数名即为列名
case class Employee(id: Int, name: String, age: Int)
val rdd = sc.textFile(employee.txt)
val df = rdd.map(_.split(,))
.map(e = employee(e(0).trim.toInt, e(1), e(2).trim.toInt))
.toDF()
DataFrame开发
import sqlContext.implicits._
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
case class Employee(id: Int, name: String, age: Int)
val rdd = sc.textFile(employee.txt)
val df = rdd.map(_.split(,))
.map(e = employee(e(0).trim.toInt, e(1), e(2).trim.toInt))
.toDF()
df.show()
df.printSchema()
df.select(name).show()
df.filter(df(age) 21).show()
df.groupBy(age).count().show()
DataFrame开发
RDD生成DataFrame
case class方式:通过定义case Class ,使用反射推断
Schema
applySchema方式:通过可编程接口,定义Schema ,
并应用到RDD上
DataFrame读写多种数据源
RDD
JSON
Parquet
JDBC
DataFrame SaveMode
SaveMode选择
SaveMode.Append :将新数据追加在原数
据后面
SaveMode.Overwrite :覆盖原数据
SaveMode.Error
您可能关注的文档
- 智慧校园平台规划建设方案.pdf
- 智慧校园网标准化安全解决方案.pdf
- 智慧校园智能化系统方案.pdf
- VMWare vSphere7解决方案助力企业数字化转型.pptx
- VMWare Enterprise部署Kubernetes服务白皮书.docx
- VMWare vSphere7版本对比说明白皮书.docx
- VMWare vSphere7虚拟化基础架构白皮书.docx
- VMWare vSphere7一站式虚拟化平台白皮.docx
- VMWare vSphere部署混合云容器服务白皮书.docx
- 基于VMWare vSphere的容器Kubernetes架构白皮书.docx
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
最近下载
- 2023年秋国开《管理思想史》形考作业1-4答案.pdf
- 小学一年级数学上册期末试卷(A4打印版).pdf VIP
- 旅游学概论期末考试试题及解析.docx VIP
- 自贡市餐厨垃圾处理配套设施改建项目环评报告书.pdf VIP
- 《音乐之父巴赫》课件.ppt VIP
- 【中考短语】初中英语动词固定搭配全汇总.pdf VIP
- 射频设计软件:Keysight ADS二次开发_(7).Python脚本在KeysightADS中的应用.docx VIP
- 2025年民主生活会100条核心素材.pdf VIP
- (直接打印版)苏教版小学数学一年级上册期末试卷.pdf VIP
- 酒店拆除改造工程专项拆除施工方案.docx VIP
原创力文档


文档评论(0)