- 21
- 0
- 约3.03千字
- 约 13页
- 2018-12-03 发布于湖北
- 举报
突击pyspark:数据挖掘的力量倍增器01
精通PySpark
DATAGURU专业数据分析社区
精通pyspark 讲师 大圣
大数据技术框架
大数据技术框架
DATAGURU专业数据分析社区
精通pyspark 大圣 626494970
大数据技术栈
DATAGURU专业数据分析社区
精通pyspark 大圣 626494970
法律声明
【声明】本视频和幻灯片为炼数成金网络课程的教学资料
,所有资料只能在课程内使用,不得在课程以外范围散
播,违者将可能被追究法律和经济责任。
课程详情访问炼数成金培训网站
DATAGURU专业数据分析社区
精通pyspark 大圣 626494970
MapReduce框架局限性
处理效率低效
1. Map 结果写磁盘,Reduce 写HDFS ,多个MR 之间通过HDFS 交换数据 ;
2. 任务调度和启动开销大 ;
3. 无法充分利用内存
不适合迭代计算(如机器学习 、 图计算等 ),交互式处理(数据挖掘 )
不适合流式处理(点击日志分析 )
MapReduce编程不够灵活,仅支持Map 和Reduce 两种操作
DATAGURU专业数据分析社区
精通pyspark 大圣 626494970
Hadoop生态圈中的各种框架
批处理 :MapReduce 、Hive 、Pig
流式计算 :Storm
交互式计算 :Impala、presto
需要一种灵活的框架可同时进行批处理、流式计算、交互式计算
DATAGURU专业数据分析社区
精通pyspark 大圣 626494970
Spark的优势
内存计算引擎 ,提供Cache 机制来支持需要反复迭代计算或者多次数据共享 ,减少数据读取的
IO 开销
DAG 引擎 ,减少多次计算之间中间结果写到HDFS 的开销
使用多线程池模型来减少task 启动开稍 ,shuffle 过程中避免不必要的sort 操作以及减少磁盘IO
DATAGURU专业数据分析社区
精通pyspark 大圣 626494970
Spark特点
易用
提供了丰富的API ,支持Java ,Scala ,Python 和R 四种语言
代码量比MapReduce 少2~5 倍
与Hadoop 集成
读写HDFS/Hbase
与YARN 集成
DATAGURU专业数据分析社区
精通pyspark 大圣 626494970
SPRAK 2 新特性
SparkSession :新的上下文入口,统一SQLContext和HiveContext
dataframe与dataset统一,dataframe只是dataset[Row]的类型别名。由于Python是弱类型语
言,只能使用DataFrame
Spark SQL 支持sql 2003标准
支持ansi-sql
支持ddl命令
支持子查询:in/not in、exists/not exists
提升catalyst查询优化器的性能
您可能关注的文档
最近下载
- 高质量数据集建设实施路径(34页 PPT).pptx VIP
- 2026年安全员C证考核考试试题(附答案).docx
- 2012年《全国统一安装工程预算定额河北省消耗量定额》解释.pdf
- 寒窑赋诵读讲解.pptx VIP
- 新疆2022系列标准设计图集新22S2 给水工程.pdf VIP
- 2026年江西工业贸易职业技术学院单招职业技能考试题库带答案解析.docx VIP
- 2026年江西工业贸易职业技术学院单招职业技能考试题库带答案详解(完整版).docx VIP
- 八下物理 7.1 力(教学课件).pptx
- 计算机视觉应用实战(OpenCV)高职全套教学课件.pptx
- 《学行为规范-做文明学生》主题班会课件.ppt VIP
原创力文档

文档评论(0)