大数据技术的初步认识.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术的初步认识

大数据技术调研 大数据研发小组 苏林东 2017/05 北京应用物理与计算数学研究所,大数据联合实验室,2017 目录 ? 什么是大数据技术? ? 大数据技术发展历程 ? 大数据生命周期 ? 大数据技术生态 ? 大数据技术应用 2 什么是大数据技术? ● 大数据技术 —— 在巨量的数据资源中提取到有价值的数 据加以分析和处理 o 基础架构支持 o 数据采集 o 数据存储 o 数据计算 o 数据展现与交互 3 发展历程 上世纪90年代至 本世纪初 2003 – 2006年 ?突破期 ?围绕非结构化 数据自由探索 2006 – 2009年 ?成熟期 ?并行运算和分 布式系统 2010年以后 ?萌芽期 ?数据挖掘 ?数据仓库、专 家系统、知识 管理系统 ?改变世界格局 的技术的基石 ?各行业颠覆性 创新的源动力 和助推器 ?Facebook创立, 社交网络流行 ?云计算、 MapReduce、 Hadoop ?引爆大数据时 代的两大事件 ? Google的三篇论文 —— GFS(2003)、MapReduce(2004)、BigTable(2006) ? 2005年,Yahoo工程师 Doug Cutting和 Mike Cafarella合作开发了 Hadoop。 4 大数据技术栈 应用和服务(包括数据服务) 编 程 和 管 理 工 具 可视化 数据分析 数 据 安 全 计算处理 数据存储和管理 硬件平台:计算、存储和互联 5 大数据技术生态 6 7 大数据的技术基础 ● Google分布式计算模型 i. MapReduce —— 分布式计算框架 ii. GFS (Google File System) —— 分布式文件系统 iii. BigTable —— 基于GFS的数据存储系统 o 简化传统分布式理论,降低技术实现难度 o 应用成本十分低廉 o 没有开源其技术实现 8 开源生态圈 9 开源生态圈 NoSQL 数据库 数据存储 批处理 即席查询 流计算 资源调度其他组件 ZooKeeper YARN MapReduce Spark Pig HBase Storm Mahout HDFS Hive Echarts Cassandra、 MongoDB Spark Streaming Mesos Impala、 Presto、 Drill Tez … 10 主流分布式系统:Hadoop ● Hadoop —— 批处理系统 起源:GFS→HDFS,Google MapReduce→Hadoop MapReduce,BigTable→HBase o 适合大数据的分布式存储和计算平台 HDFS负责海量数据的分布式存储 MapReduce负责对数据的计算结果汇总 o 数据管理系统 o 大规模并行处理框架 o 开源社区 18 主流分布式系统:Hadoop ? HDFS ? HDFS ? Federation:多个 NameNode分管不同的 目录 ? 一个NameNode和多个 DataNode ? MapReduce 1.0 ? 编程模型 + 运行时环境 ? 一个JobTracker和多个 TaskTracker ? MapReduce 2.0 ? 编程模型 + 运行在 YARN之上 ? JobTracker负责资源管 理和所有作业的控制; TaskTracker负责接收 来自JobTracker的命令 并执行 ? YARN ? ResourceManager、 ApplicationMaster与 NodeManager替代 JobTracker和 TaskTracker 19 主流分布式系统:Hadoop 扩容能力(Scalable)只适用于离线数据的 成本低(Economical)处理 平台改进后与各种新 的计算模式和系统并 存、融合 高效率(Efficient) 可靠性(Rellable) 开源(Open Source) 20 主流分布式系统:Storm ● Storm —— 流处理系统 o 分布式的、容错的实时计算系统, 流处理平台 o 可用于“连续计算”、“分布式RPC” 编程模型简单,显 著地降低了进行实 时处理的难度 无法进行批处理 不能保证消息的处 理顺序(Core o 在Hadoop的基础上提供了实时运算 的特性 有一个低达毫秒级 Storm) 的延迟 互操作性 o 不进行数据的收集和存储工作 21 主流分布式系统:Spark ●

文档评论(0)

haihang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档