SparkSQL在华为的实践.pdf

SparkSQL在华为在华为为的实践为的实践 李李昆昆 jackyjacky .likun@huaweilikun@com 微博:malloc0 MarMar 2929,(Spark(Spark MeetupMeetup)) HUAWEI TECHNOLOGIES CO., LTD. 目录目录  SparkSpark最新发展最新发展  Spark在华为的应用  Demo  统一SQQL分析平台  Overview  SSparkSQLkSQL on CCubbe  SparkSQL on HBase Apache Spark背景景介绍 ark特点特点: 存计算,高性能,100X 用,优雅,函数式编程 一的大数据处理平台,,支持多支持多 复杂应用 Spark 1.3最新发展展 arkSQL: Much more than SQQL! DataFrame API: 写更少代码 DataSource API: 读更少数据 性能:让Catalyst自动做全局优化 achine Learning ML Pipeline API: 利用SparkSQL连 接接MLML各个阶段各个阶段 ,并做优化并做优化 Community Package (50+) DataFrameDataFrame APIAPI ::写写写更少代码写更少代码 apReduce代码 Spark RRDD代码 Spark DDataFrame代码 从处理转转向分析 • From data engineer to data scientist (PyData, R, statiistiics))。 • 简化编编程,让不熟悉函数式编程的人也能高效使用。 DataSourceDataSource APIAPI ::连接更多数据源连接更多数据源 Source:databricks 全局优化全局优化 :让让Spparkk编程更轻松编程更轻松 SourceSource:databricksdatabricks DataFrameDataFrame内部实现内部实现现现 •• 不管用什么语言写不管用什么语言写 ,DataFrameDataFrame内部内部部实现都是部实现都是LogicalLogical PlanPlan • DataFrame的执行是lazy的,所以可可以利用Catalyst做全局优化,这是和 panddas的的一个重要个重要区别区别 -所有语言都得到性能提升: Java, Scala, Python, SQL SourceSource::databricksdatabricks 性能 Source:datab 为什么之前的RDDD做不了这些优化? RDD: 任意的数据类型 DF: 每列都指定了数据类型 RDD:RDD: 任意的操作任意的操作 DF:DF: 受限的受限的SQLSQL语法语法 目录目录  SparkSpark最新发展最新发展 

文档评论(0)

1亿VIP精品文档

相关文档