- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据Spark案例及实践.ppt
大数据Spark案例及实践?
刘萍
2016年10月29日—11月2日 北京培训汇报
目录
大数据技术框架
Hadoop与Spark生态系统
课程内容安排
1
2
3
3
4
4
4
五天培训内容简介
培训思考
董西成
???硕士毕业于中国科学院(计算技术研究所);
???目前就职于hulu(北美著名在线视频公司);
???2009年开始接触hadoop,在hadoop之上进行了大
量定制和二次开发;
???技术博客:/
???技术书籍:
2
培训老师介绍:
董西成
3
持续学习
hadoop123:董西成的微信公众号
专注于Hadoop/spark等大数据相关技术的分享
??? 互联网领域
ü??搜索引擎,推荐系统,广告系统
??? 电信领域
ü??用户画像,用户行为分析
??? 医药生物领域
ü??DNA分析
??? 视频领域
ü??视频存储,视频分析
1.?数据应?领域 ?
??? 金融领域
ü??信用卡欺诈分析,用户分析
??? 矿产勘探领域
ü??矿产石油勘查预测
1.?数据应用领域 ?
数据源(互联网、物联网、企业数据等) ?
改编自:工业和信息化部电信研究院,“2014 大数据白皮书”
批处理 ?
交互式分析 ?
流处理 ?
数据可视化 ?
数据挖掘(数据仓库,OLAP,商务智能等) ?
(4) 计算框架
(6) 数据展示
(5) 数据分析
大
数
据
技
术
框
架
资源管理 ?
数据存储(SQL和NoSQL) ?
数据收集(ETL, 提取,转换,加载) ?
(3) 资源管理
(2) 数据存储
(1) 数据收集/准备
2.大数据技术框架 ?
用户 ?
(分布式协调务)
Zookeeper ?
Flume(日志收集) ?
Sqoop ?
HDFS ?
(分布式文件系统)
YARN ?
(分布式资源管理系统)
Hive ?
Pig ?
Hbase ?
(分布式数据库)
3.Hadoop生态系统 ?
Ambari ?
(安装部署工具)
Oozie ?
(作业流调度系统)
MapReduce ?
(离线计算)
Storm ?
Spark ?
(内存计算)
MLlib ?
…
…
Spark ?
SQL ?
计算类型及应用场景
??? 批处理计算
ü?? 对时间没有严格要求,吞吐率要高
??? 迭代式与DAG计算
ü?? 机器学习算法
??? 交互式计算
ü?? 支持类SQL语言,快速进行数据分析
??? 流式计算
ü?? 数据像流水一样进入系统,需实时对其处理和分析
???
高效(比MapReduce快10~100倍)
ü??内存计算引擎,提供Cache机制来支持需要反复迭代计算或
者多次数据共享,减少数据读取的IO开销
ü??DAG引擎,减少多次计算之间中间结果写到HDFS的开销
ü??使用多线程池模型来减少task启动开稍,shuffle过程中避免
不必要的sort操作以及减少磁盘IO操作
???易用
ü??提供了丰富的API,支持Java,Scala,Python和R四种语言
ü??代码量比MapReduce少2~5倍
???与Hadoop集成
ü??读写HDFS/Hbase
ü??与YARN集成
Spark特点
MPI
MapReduce
Spark生态系统 ?
Spark
Streaming
实时计算框架
Spark
SQL
Graphx
Graph-parallel
分布式图处理框架
Mllib
机器学习算法
Spark
YARN
资源管理器
HDFS
分布式文件系统
五天培训内容简介
第1天(Spark基础)
Spark基础 ?
Spark部署
Spark程序设计?
1.Spark概述
2.Spark核心概念
3.Spark运行模式
4.Spark在互联网公司中的应用
1.Spark本地模式
2.Hadoop集群搭建
3.Spark集群模式
1.Scala简介
2.Spark编程基础
3.Spark编程实例
五天培训内容简介
第2天(Spark SQL)
Spark SQL基础 ?
Spark案例 ?
Spark SQL 与DataFrame
1. 背景介绍
2. Spark SQL 主要组件
3. DataFrame与DataSet
4. Tungsten
Spark SQL程序设计与案例分析
1.Spark SQL程序设计基础
2.Spark SQL数据源
3.常用operation介绍
4.应用案例:篮球运动员评估系统
五天培
文档评论(0)