- 17
- 0
- 约小于1千字
- 约 13页
- 2017-04-10 发布于上海
- 举报
大數据处理框架之spark
大数据处理框架之spark
分享人:黄宇鹏
目录
背景
Hadoop回顾
Spark简介
Spark原理
Spark on Yarn
Yarn 生态系统
建议
背景
大数据时代
Hadoop在数据挖掘中的不足
多次迭代,I/O延时大
中间结果的序列化和反序列化
简单的MR模式 VS 复杂的数据挖掘算法
函数式编程
图计算
Hadoop回顾
MapReduce过程
Map()函数
Reduce()函数
执行一次,结果写入磁盘
Shuffle过程
序列化和反序列化
写磁盘
Spark简介
基于内存的分布式计算框架
适合多次迭代的计算
支持多种操作,例如:map,filter,join等
提供多种数据处理工具,SQL,Streaming等
支持多种开发语言Scala,java,python.
与hadoop结合进行数据处理
对hdfs,hive,hbase进行访问
处理速度快
Spark 简介
运行模式
Standalone模式
Spark On Mesos模式
Spark On Yarn模式
Spark 原理
Spark主从结构
Driver
任务调度
容错处理
Worker
执行各种操作
保存数据
Spark 原理
RDD(Resilient Distributed Datasets)
弹性分布式数据集:一个只读、可分区的记录集合(对象)
可进行多种操作:transformatio
您可能关注的文档
- 基于“學为中心”理念的教学计——以9年级历史与社会为例.ppt
- 基于匯文LIS的Tag尝试.ppt
- 基于協同图排序的对比新闻自动摘要.ppt
- 基于分光計的SPR效应.ppt
- 基于半外存的IO高效大圖独立集算法研究.ppt
- 基于圖像的绘制技术.ppt
- 基于多元化人才培養需求的大学英语课程体系建设探究.ppt
- 基于學习动机的高校教学设计.ppt
- 基于導频的OFDM信道估计.ppt
- 基于工作過程系统化的职业教育实验实训基地建设.ppt
- 计算机二级MS Excel2026年高频考点含解析.docx
- 计算机二级MS Office2026年冲刺卷含解析.docx
- 计算机二级MS Office高级应用2026年冲刺全真模拟含解析.docx
- 计算机二级MS Office高级应用2026年押题高频考点含解析.docx
- 2026年新高考全国卷一数学导数易错题预测卷含解析.docx
- 2026年新高考全国卷语文压轴题模拟卷含解析.docx
- 2026年新高考全国乙卷高考数学易错题卷(含解析).docx
- 2026年新高考生物稳态调节专题预测分析卷(含解析).docx
- 2026年新课标 I 卷高考化学易错点专项模拟卷含解析.docx
- 2026年新课标 I 卷高考生物押题模拟卷含解析.docx
原创力文档

文档评论(0)