大数据与绿色数据中心26.pptVIP

  • 0
  • 0
  • 约6.68千字
  • 约 26页
  • 2019-06-07 发布于河南
  • 举报
大数据与绿色数据中心 未来45分钟4组关键词 2 大数据特点(4个V ) CAP理论 业界三类数据库 数据中心---PUE 大数据在中国 大数据 – 新一轮“信息革命” Data Growth Statements – Mckinsey Global Institute 200PB/季度 智慧城市数据 中国某一线城市 2090亿 2021年RFID标签销售量 2011年是1200万 1.8ZB in 2011 2天的数据量 文明起始到2003年 3.88亿/5.3亿 移动/互联网用户 中国 2012年6月 $8000亿 10年个人位置信息服务创造的价值 5PB/年 健康档案数据 中国某一线城市 3 速度 Velocity 数据量 Volume 多样化 Variety 传统数据 大数据 GB - TB TB - PB以上 数据量稳定,增长不快 持续实时产生数据, 年增长率超过60% 主要为结构化数据 半结构化,非结构化, 多维数据 大数据在中国 大数据 – 四大区别于传统数据的特征 统计和报表 价值 Value 数据挖掘和预测性分析 4 CAP原理 Consistency 一致性 所有的用户都可以看到一致的系统状态 Availability 可用性 无论何时,哪怕出现硬件故障,数据中心故障,系统也可提供服务,哪怕是降级的服务 Partition Tolerance 分区容忍性 哪怕在网络出现分割的情况下,各个独立的子系统都可以继续提供服务 6 RDBMS与Hadoop架构对比 RDBMS RDBMS Connection (e.g., FC, InfiniBand) Storage (e.g., SAN, NAS, Storage Cell, etc) •多个独立的关系数据库服务器,访问共享的存储资源池 •优势: •采用多个关系数据库服务器,多个存储,与原有的架构相比,扩展了存储容量和计算能力; •劣势: •计算与存储分离,数据访问存在竞争和带宽瓶颈; •支持的关系数据库服务器数量有限; •只能向上扩展(scale-up), 不能横向扩展(not scale out) •适合复杂的需要事务处理的应用 NewSQL 与 NoSQL Network (e.g., GbE, 10GbE, Infiniband) E.g., MPP Databases (or MapReduce on RDBMS), Big Data framework (e.g., Hadoop, HBase) •由大量独立的服务器通过网络互连形成集群,每个服 务器带存储。 •优势:计算与存储融合,支持横向扩展,更好的扩展 性 •劣势:解决数据冲突时需要节点间协作 •适用范围: •数据仓库和离线数据分析 (MPP, Hadoop/HBase) •大规模在线实时应用(单行事务处理能满足的场景) (HBase) NewSQL: 分析类处理 列存储 关系型 X86平台 大数据激发技术创新 7 NewSQL:严格保证一致性、遵循关系模型,完整支持SQL92标准,一定程度上牺牲可用性和分区容错性。 特点:列存、 主要使用场景:主要用于结构化数据的统计分析 Nosql数据库:侧重分区容错性,一定程度上牺牲一致性和可用性,突破了关系模型,不一定支持SQL。 特点:主要使用场景:非结构化数据的统计分析、实时查询 共性:采用廉价的X86平台、本地硬盘、分布式架构 大数据推动产品创新 8 大数据推动了数据库行业的产品创新。 OldSQL阵营在基本架构不变的基础上引入内存计算和一体机技术以提升处理性能。 NewSQL阵营在过去五年里形成了近十个商用的产品,去年Google发表论文介绍了F1/Spanner关系型数据库(未开源)。 NoSQL阵营的技术源于互联网公司Google,Yahoo,Amazon, Facebook等。 现在又出现了noSQL阵营和newSQL阵营融合的趋势,例如hadoop通过hive的扩展实现了对结构化数据的支持,greenplum等产品也通过对和hadoop的融合实现了对非结构化数据的支持。 RDBMS: Oracle Exadata DB2-DPF SQLServer NewSQL: Greenplum Vertica GBase 8a F1/Spaner NoSQL: Hadoop Hbase Bigtable Cassandra 9 什么应用适合NoSQL数据库方案 支持PB级别数据 Big Data 支持非结构化数据 支持结构化数据 支持万级每秒查询 支持高可靠性系统 支持高效率统

文档评论(0)

1亿VIP精品文档

相关文档