SparkSQL在华为在华为为的实践为的实践
李李昆昆 jackyjacky .likun@huaweilikun@com
微博:malloc0
MarMar 2929,(Spark(Spark MeetupMeetup))
HUAWEI TECHNOLOGIES CO., LTD.
目录目录
SparkSpark最新发展最新发展
Spark在华为的应用
Demo
统一SQQL分析平台
Overview
SSparkSQLkSQL on CCubbe
SparkSQL on HBase
Apache Spark背景景介绍
ark特点特点:
存计算,高性能,100X
用,优雅,函数式编程
一的大数据处理平台,,支持多支持多
复杂应用
Spark 1.3最新发展展
arkSQL: Much more than SQQL!
DataFrame API: 写更少代码
DataSource API: 读更少数据
性能:让Catalyst自动做全局优化
achine Learning
ML Pipeline API: 利用SparkSQL连
接接MLML各个阶段各个阶段 ,并做优化并做优化
Community Package (50+)
DataFrameDataFrame APIAPI ::写写写更少代码写更少代码
apReduce代码 Spark RRDD代码
Spark DDataFrame代码
从处理转转向分析
• From data engineer to data scientist (PyData, R,
statiistiics))。
• 简化编编程,让不熟悉函数式编程的人也能高效使用。
DataSourceDataSource APIAPI ::连接更多数据源连接更多数据源
Source:databricks
全局优化全局优化 :让让Spparkk编程更轻松编程更轻松
SourceSource:databricksdatabricks
DataFrameDataFrame内部实现内部实现现现
•• 不管用什么语言写不管用什么语言写 ,DataFrameDataFrame内部内部部实现都是部实现都是LogicalLogical PlanPlan
• DataFrame的执行是lazy的,所以可可以利用Catalyst做全局优化,这是和
panddas的的一个重要个重要区别区别
-所有语言都得到性能提升: Java, Scala, Python, SQL
SourceSource::databricksdatabricks
性能
Source:datab
为什么之前的RDDD做不了这些优化?
RDD: 任意的数据类型 DF: 每列都指定了数据类型
RDD:RDD: 任意的操作任意的操作 DF:DF: 受限的受限的SQLSQL语法语法
目录目录
SparkSpark最新发展最新发展
您可能关注的文档
- 大数据之Mongodb的理论实践与优化.pdf
- 销售与运作计划.pdf
- 项目运作的一般流程.pdf
- 腾讯云安全实践.pdf
- 2009-2010年《中国机电工业行业市场评估及预测报告》系列-口腔科用设备及器具制造.pdf
- 网络广告应用实践.pdf
- 霍力:车来了的数据驱动实践.pdf
- 宇通客车股份有限公司信息技术总体规划第二卷展望报告.pdf
- 第五章企业定价实践.pdf
- 宏观经济政策及实践.pdf
- 2026年环保新材料行业应用创新报告.docx
- 信息安全工程师考试试卷(2篇)2025年专项训练.docx
- 2025年《Unity3D交互设计》专项训练工程师项目评估卷.docx
- 2025年教师资格证《职业道德与法规》真题汇编.docx
- 20226年春江苏开放大学环境法规与标准060118过程性考核作业三.pdf
- 2026年春江苏开放大学清洁生产审核060497平时作业1-3.docx
- 2026年春江苏开放大学环境法规与标准060118过程性考核作业一.docx
- 20226年春江苏开放大学环境法规与标准060118过程性考核作业四.doc
- 2026年春江苏开放大学现代城市社区建设概论050016大作业答案.docx
- 2026年春江苏开放大学环境法规与标准060118过程性考核作业一.pdf
原创力文档

文档评论(0)