- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Greenlum使用手册
GreenPlum数据库集群安装说明及使用手册开心十二月总结****年**月**日目录体系结构介绍 Greenplum数据库产品——下一代数据仓库引擎和分析方法Greenplum公司是企业数据云计算解决方案的创始人,为客户提供灵活的数据商业智能和分析方法。能够以极低的成本代价,提供业界领先的计算性能。客户遍及美国知名企业:Nasdaq、NYSE、Ebay、Fox Interactive Media……等。Greenplum公司的Greenplum数据库产品是用于建造下一代数据仓库和巨大规模分析系统的软件解决方案。支持SQL和MapReduce并行处理,更适合管理TB级~PB级的海量数据,并以极低的成本代价提供了业界领先的计算性能。使用独有的sharing-nothing MPP架构,服务器的集群工作起来,就像是一个独立的超级计算机!优化了BI和分析方法,自动化分区数据和并行查询,比传统数据库执行速度提高10倍~100倍!Greenplum数据库的特色:大规模地并行分析处理能力Greenplum数据库可以跨越100~1000颗CPU,实现统一的并行操作引擎,让处理过程尽可能地靠近数据。Greenplum是业界最快的和最普及的高端数据仓库解决方案!用传统方式需花费数天才能完成的复杂查询,现在使用Greenplum只需要几分钟完成!核心的MPP架构Greenplum数据库提供数据和查询的自动化并行:数据被自动分区跨越集群中的所有节点;查询以高度协作的方式,在集群的所有节点上执行。高速PB级数据装载利用独有的MPP Scatter/Gather Streaming技术,实现高速的数据装载。每增加1个节点,每小时装载吞吐量提高4TB!数据库内部压缩利用业界领先的压缩技术提高性能和降低存储空间。在有效较少1/3~1/10空间的同时,相应地提高了I/O性能。多级容错能力Greenplum数据库利用多级冗余技术,在硬件或软件故障时,保障操作可以继续执行。在线系统扩展为提高存储容量、处理性能,增加新的服务器到集群中,扩展的操作在后台完成,数据库可以继续保持正常工作状态不受影响。处理性能和存储容量,随服务器的个数增加成正比显著提高!自有的MapReduce技术MapReduce是Google和Yahoo的大规模数据分析方法。Greenplum使用独有的并行引擎执行MapReduce。Greenplum数据库架构原理解密:Greenplum数据库通过分布负载到多个服务器主机,实现操作存储和处理大规模的数据。数据库实际上由1个Master服务器和若干个独立的Segment服务器组成,一起协调工作,每个服务器都是独立的PostgreSQL数据库。如图1所示,Master服务器是数据库的入口,验证客户端,处理输入的SQL,分布工作到若干Segment服务器,统一协调各个Segment返回的结果,汇总最终结果返回客户端。Master不存储任何用户数据,只有全局系统视图。图1:Greenplum数据库架构如图2所示,Segment服务器是真正数据存储的地方,并承担主要的查询工作。用户数据(表、索引)被分布存储到有效的若干Segment,通过Hash算法,每个Segment存放数据的不同部分。图2:Segment服务器真正存储数据图3展示了一套完整的Greenplum数据仓库实施架构示例。独立的Master服务器,通过千兆网络连接在一起的若干Segment服务器,每个Segment服务器挂载独立的RAID存储。服务器基于X86-64位硬件平台,安装Linux操作系统,获得极高的性价比。图3:Greenplum数据库完整实施架构示例图4记录了一次完整的MPP并行查询过程。Master作为查询调度器,为客户端提供连接工作;Segment独立管理数据片和数据操作。调度过程如下:1.Master验证客户端用户。2.Master连接到所有远程Segment实例。3.Master解析SQL语句。4.Master建立1个优化的并行查询计划。5.Master分布查询计划到所有的Segment实例。6.Master协调查询计划在所有Segment上并行执行。7.Master收集所有Segment的查询结果并返回到客户端。图4:一次查询调度过程Greenplum独有的Sharing-Nothing架构:数据仓库在执行全表扫描查询时,通常速度被存储的带宽限制,即瓶颈大多集中在I/O。Greenplum的Sharing-Nothing架构物理分离数据,存储到若干Segment服务器,每个Segment使用多个、专用的、独立的、高速的通道独立连接到磁盘,并把管理数据库资源:buffer、lock、block的职责委派到各个Segment,不使用Master统一管理资源!从图5中可以看出
文档评论(0)