- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量并行(MPP)内存数据仓库技术实现探讨讲述
海量并行(MPP)
内存数据仓库
3
统一的大数据系统的整体视图
ETL
Unstructured Data (HDFS)
Real Time
Un-
structured
Datastore
(hBase,
Gemfire,
Cassandra)
Big SQL
(Greenplum,
AsterData,
Etc…)
Batch
Processing
实时流
数据
实时处理
(s4, storm)
Analytics
通过虚拟化来统一大数据计算平台
?
目标
?
?
?
?
?
简单、快速、即需地监控数据集群
允许混合负载
利用虚拟机来提供隔离(如:多租户)
通过虚拟拓扑来优化数据处理性能
通过虚拟拓扑来优化平台稳定性
?
充分利用虚拟化
?
?
?
?
可伸缩的扩展性能
依靠高可靠性来保护关键服务,如:Hadoop的Name Node及Job Tracker
资源控制和共享:重用低利用率的内存及CPU
对负载进行优先级控制:在混合环境中优化及限制资源的使用
5
SQL集群
Unifed Analytics Infrastructure
Hadoop 集群
Private
Public
Big SQL
Hadoop
NoSQL
Decision Support 集群
NoSQL集群
统一的分析云将被极大的简化
? 简化
? 单一的硬件基础架构
? 快速、简易的环境控制
? 优化
? 共享的资源 = 更高的利用率
? 可伸缩的资源 = 快速的即需资源访问
6
并行内存计算 及 持久化
? 关键技术:
? Share-Nothing, MPP 海量并行架
构
? 基于内存分区的数据集市
? 海量并行内存计算
? 虚拟化, 云
? 性能优化
? 固态内存
并行内存为大数据提供实时缓存
655
400
300
200
100
0
700
600
500
0
All HDD
373
Smart Flash
Cache
Persist Data
on Warpdrive
TPS
400
300
200
100
0
700
600
500
0
All HDD
330
Smart Flash Persist Data
Cache on
Warpdrive
ResponseTime
660
Physical Storage
SSDs
Arrays
HDDs
Arrays
Logical Volume
Hot Data
Cold Data
并行内存针对大数据的应用场景
传统模拟对比
基于Hadoop的模拟
MapReduce可以基于MPP内存
渲染组合可以基于内存,数据库同理
Capability
Cloudera
CDH
EMC/GP
UAP
MAPR
HortonWorks
Open
Source
MPPIn-
memorywith
Hadoop
低延迟
任务调度
Impala
only
No
No
No
混合负载
No
No
No
No
快速的
抢占式调度
No
No
No
No
No
时间敏感
SLA保证
No
No
No
No
使用计费及
分析插件
No
No
No
No
No
可恢复的
Hadoop任务
No
No
No
No
No
No
POSIX
文件系统
No
NFSonly
No
No
NFSorGluster
企业级
文件系统功能
No
No
No
现有大数据处理平台的技术比较 - I
全功能的
10
Capability
Cloudera
CDH
EMC / GP
UAP
MAPR
HortonWork
s
Open
Source
MPP In-
memory with
Hadoop
SQL 的支持
Impala
Pivotal
Drill
Via open
source only
Impala,
Drill
大表 的支持
No
No
No
No
外部数据的链接
GP DB
built-in
No
No
No
加速器
No
No
No
No
完整的硬件及
软件的支持
单一厂商支持
Through
HW
partners
Through
HW
Through
HW partners
No
No
No
No
No
现有大数据处理平台的技术比较 - II
partners
No No No No
私有云管理功能
注: Hadoop 1.0 i
文档评论(0)