- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Greenplum大数据时代高性能的数据仓库与BI应用平台
Greenplum——大数据时代高性能的数据仓库与BI应用平台一. Greenplum简介大数据是个炙手可热的词,各行各业都在谈。一谈到大数据,好多人认为就是Hadoop。实际上Hadoop只是大数据若干处理方案中的一个。现在的SQL、NoSQL、NewSQL、Hadoop等等,都能在不同层面或不同应用上处理大数据的某些问题。而Greenplum数据库作为一个分布式大规模并行处理数据库(MPP),在大多数情况下,更适合做大数据的存储引擎、计算引擎和分析引擎。Greenplum作为企业级数据库产品,可以说是世界上最先进的OLAP开源数据库之一。Greenplum是由数个独立的数据库服务组合成的逻辑数据库,简单的说就是一个与ORACLE、 DB2一样面向对象的关系型数据库集群,我们可以通过标准的SQL可以对GP中的数据进行访问存取。2015年10月,Pivotal宣布Greenplum正式开源。Greenplum为大数据存储、计算、挖掘而设计,拥有丰富的特性:第一,完善的标准支持:Greenplum完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。第二,支持分布式事务,支持ACID。保证数据的强一致性。第三,作为分布式数据库,拥有良好的线性扩展能力。在国内外用户生产环境中,具有上百个物理节点的Greenplum集群都有很多案例。第四,Greenplum有很多合作伙伴,有完善的生态系统,可以与很多企业级产品集成,譬如SAS、Cognos、Informatic、Tableau等;也可以很多种开源软件集成,譬如Pentaho、Talend 等。二. Greenplum架构数据库构架设计中主要有Shared Everthting、Shared Nothing、Shared Disk:数据库架构类型Shared Everthting:局限于单一服务器(通常是价格比较昂贵的SMP服务器),完全透明共享CPU、Memory和I/O,典型的代表SQLServer。并行处理能力是最差的,其扩展性和性能受到相应的限制。Shared Disk:各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。典型的代表Oracle?Rac, 它是数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好,类似于SMP(对称多处理)模式。这种架构需要通过一个狭窄的数据管道将所有I/O信息过滤到昂贵的共享磁盘子系统。但是当存储器接口达到饱和的时候,增加节点并不能获得更高的性能?。Shared Nothing:各个处理单元都有自己私有的CPU/内存/硬盘等,不存在共享资源,类似于MPP(大规模并行处理)模式,它是把某个表从物理存储上被水平分割,并分配给多台服务器(或多个实例),每台服务器可以独立工作,各处理单元之间通过协议通信。并行处理和扩展能力更好,只需增加服务器数就可以增加处理能力和容量。典型代表DB2 DPF和Hadoop?,各节点相互独立,各自处理自己的数据,处理后的结果可能向上层汇总或在节点间流转。Greenplum是基于软件的海量数据并行操作的“完全不共享”的MPP架构,将实际的数据存储设备分成一个个区段服务器上的小存储单元,每个单元都有一个连接本地磁盘的专用独立的、高带宽通道。区段服务器可以通过完全并行的方式处理每个查询,同时使用所有磁盘连接,并按照查询计划的要求在各区段间实现高效数据流动。Greenplum基于这种架构可以帮助客户创建数据仓库(Greenplum从开始设计的时候就被定义成数据仓库),充分利用低成本的商用服务器、存储和联网设备,通过经济的方式升级到千万亿字节的系统,并且在处理OLAP、BI(商务智能)、数据分析和数据挖掘等任务时性能远远超过了通用数据库系统。Greenplum架构Greenplum的组件分成三个部分:MasterSevers、SegmentSevers和MasterSevers与SegmentSevers之间的高效互联技术Interconnect。其中Master和Segment本身就是独立的数据库Sever。Master负责建立与客户端的连接和管理,进行SQL的解析并形成执行计划生成并拆分执行计划;把执行计划分配给Segment的节点,收集Segment的执行结果并返回给最终应用;Master不存储业务数据,只存储数据字典,不负责运算,因此不会成为系统性能的瓶颈。这也是Greenplum与传统MPP架构数据库的一个重要区别。 Segment负责业务数据的存储和存取,并根据得到
您可能关注的文档
- 20131电大专科建筑力学试题.doc
- 2013届新高考全案人教版数学(课外学生练与悟)3-2.doc
- 2013届钻石卡学员英语基础阶段(二)计划模板.doc
- 2013届高三历史二轮复习专题集训.doc
- 2013届高三历史二轮复习精品教学案-专题五世界现代政治经济文明专题复习辅导(35页).doc
- 2013届高三教学质量监测文综历史试题.doc
- 2013届高考历史二轮复习专题开启智慧的大门,步入知识的殿堂.doc
- 2013届高三物理一轮复习实验专题测定电源的电动势和内阻导学案新人教版.doc
- 2013届高三各地模拟考试试题汇编1直线运动2相互作用.doc
- 2013届高三物理一轮配套练习94电磁感应的动力学和能量问题新人教版选修3-2.doc
文档评论(0)