网站大量收购闲置独家精品文档,联系QQ:2885784924

海量并行(MPP)内存数据仓库技术实现探讨讲述.pptx

海量并行(MPP)内存数据仓库技术实现探讨讲述.pptx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量并行(MPP)内存数据仓库技术实现探讨讲述

海量并行(MPP) 内存数据仓库 3 统一的大数据系统的整体视图 ETL Unstructured Data (HDFS) Real Time Un- structured Datastore (hBase, Gemfire, Cassandra) Big SQL (Greenplum, AsterData, Etc…) Batch Processing 实时流 数据 实时处理 (s4, storm) Analytics 通过虚拟化来统一大数据计算平台 ? 目标 ? ? ? ? ? 简单、快速、即需地监控数据集群 允许混合负载 利用虚拟机来提供隔离(如:多租户) 通过虚拟拓扑来优化数据处理性能 通过虚拟拓扑来优化平台稳定性 ? 充分利用虚拟化 ? ? ? ? 可伸缩的扩展性能 依靠高可靠性来保护关键服务,如:Hadoop的Name Node及Job Tracker 资源控制和共享:重用低利用率的内存及CPU 对负载进行优先级控制:在混合环境中优化及限制资源的使用 5 SQL集群 Unifed Analytics Infrastructure Hadoop 集群 Private Public Big SQL Hadoop NoSQL Decision Support 集群 NoSQL集群 统一的分析云将被极大的简化 ? 简化 ? 单一的硬件基础架构 ? 快速、简易的环境控制 ? 优化 ? 共享的资源 = 更高的利用率 ? 可伸缩的资源 = 快速的即需资源访问 6 并行内存计算 及 持久化 ? 关键技术: ? Share-Nothing, MPP 海量并行架 构 ? 基于内存分区的数据集市 ? 海量并行内存计算 ? 虚拟化, 云 ? 性能优化 ? 固态内存 并行内存为大数据提供实时缓存 655 400 300 200 100 0 700 600 500 0 All HDD 373 Smart Flash Cache Persist Data on Warpdrive TPS 400 300 200 100 0 700 600 500 0 All HDD 330 Smart Flash Persist Data Cache on Warpdrive ResponseTime 660 Physical Storage SSDs Arrays HDDs Arrays Logical Volume Hot Data Cold Data 并行内存针对大数据的应用场景 传统模拟对比 基于Hadoop的模拟 MapReduce可以基于MPP内存 渲染组合可以基于内存,数据库同理 Capability Cloudera CDH EMC/GP UAP MAPR HortonWorks Open Source MPPIn- memorywith Hadoop 低延迟 任务调度 Impala only No No No 混合负载 No No No No 快速的 抢占式调度 No No No No No 时间敏感 SLA保证 No No No No 使用计费及 分析插件 No No No No No 可恢复的 Hadoop任务 No No No No No No POSIX 文件系统 No NFSonly No No NFSorGluster 企业级 文件系统功能 No No No 现有大数据处理平台的技术比较 - I 全功能的 10 Capability Cloudera CDH EMC / GP UAP MAPR HortonWork s Open Source MPP In- memory with Hadoop SQL 的支持 Impala Pivotal Drill Via open source only Impala, Drill 大表 的支持 No No No No 外部数据的链接 GP DB built-in No No No 加速器 No No No No 完整的硬件及 软件的支持 单一厂商支持 Through HW partners Through HW Through HW partners No No No No No 现有大数据处理平台的技术比较 - II partners No No No No 私有云管理功能 注: Hadoop 1.0 i

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档