- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术的初步认识
大数据技术调研
大数据研发小组
苏林东
2017/05
北京应用物理与计算数学研究所,大数据联合实验室,2017
目录
? 什么是大数据技术?
? 大数据技术发展历程
? 大数据生命周期
? 大数据技术生态
? 大数据技术应用
2
什么是大数据技术?
● 大数据技术 —— 在巨量的数据资源中提取到有价值的数
据加以分析和处理
o 基础架构支持
o 数据采集
o 数据存储
o 数据计算
o 数据展现与交互
3
发展历程
上世纪90年代至
本世纪初
2003 – 2006年
?突破期
?围绕非结构化
数据自由探索
2006 – 2009年
?成熟期
?并行运算和分
布式系统
2010年以后
?萌芽期
?数据挖掘
?数据仓库、专
家系统、知识
管理系统
?改变世界格局
的技术的基石
?各行业颠覆性
创新的源动力
和助推器
?Facebook创立,
社交网络流行
?云计算、
MapReduce、
Hadoop
?引爆大数据时
代的两大事件
? Google的三篇论文 —— GFS(2003)、MapReduce(2004)、BigTable(2006)
? 2005年,Yahoo工程师 Doug Cutting和 Mike Cafarella合作开发了 Hadoop。
4
大数据技术栈
应用和服务(包括数据服务)
编
程
和
管
理
工
具
可视化
数据分析
数
据
安
全
计算处理
数据存储和管理
硬件平台:计算、存储和互联
5
大数据技术生态
6
7
大数据的技术基础
● Google分布式计算模型
i. MapReduce —— 分布式计算框架
ii. GFS (Google File System) —— 分布式文件系统
iii. BigTable —— 基于GFS的数据存储系统
o 简化传统分布式理论,降低技术实现难度
o 应用成本十分低廉
o 没有开源其技术实现
8
开源生态圈
9
开源生态圈
NoSQL
数据库
数据存储
批处理
即席查询
流计算
资源调度其他组件
ZooKeeper
YARN
MapReduce
Spark
Pig
HBase
Storm
Mahout
HDFS
Hive
Echarts
Cassandra、
MongoDB
Spark
Streaming
Mesos
Impala、
Presto、
Drill
Tez
…
10
主流分布式系统:Hadoop
● Hadoop —— 批处理系统
起源:GFS→HDFS,Google MapReduce→Hadoop MapReduce,BigTable→HBase
o 适合大数据的分布式存储和计算平台
HDFS负责海量数据的分布式存储
MapReduce负责对数据的计算结果汇总
o 数据管理系统
o 大规模并行处理框架
o 开源社区
18
主流分布式系统:Hadoop
? HDFS
? HDFS
? Federation:多个
NameNode分管不同的
目录
? 一个NameNode和多个
DataNode
? MapReduce 1.0
? 编程模型 + 运行时环境
? 一个JobTracker和多个
TaskTracker
? MapReduce 2.0
?
编程模型 + 运行在
YARN之上
? JobTracker负责资源管
理和所有作业的控制;
TaskTracker负责接收
来自JobTracker的命令
并执行
? YARN
? ResourceManager、
ApplicationMaster与
NodeManager替代
JobTracker和
TaskTracker
19
主流分布式系统:Hadoop
扩容能力(Scalable)只适用于离线数据的
成本低(Economical)处理
平台改进后与各种新
的计算模式和系统并
存、融合
高效率(Efficient)
可靠性(Rellable)
开源(Open Source)
20
主流分布式系统:Storm
● Storm —— 流处理系统
o 分布式的、容错的实时计算系统,
流处理平台
o 可用于“连续计算”、“分布式RPC”
编程模型简单,显
著地降低了进行实
时处理的难度
无法进行批处理
不能保证消息的处
理顺序(Core
o 在Hadoop的基础上提供了实时运算
的特性
有一个低达毫秒级 Storm)
的延迟
互操作性
o 不进行数据的收集和存储工作
21
主流分布式系统:Spark
●
文档评论(0)