IGreenplum介绍.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IGreenplum介绍

Greenplum是一款专门做数据仓库的数据库。 greenplum特点: 基于开源的PostgreSQL改造的,专门针对大数据量处理的数据库服务器。 MPP理解为shared nothing架构 用户如果是使用的PostgreSQL可平滑的迁移到GP。 Oracle是基于后端共享数据存储,多个实例运行在存储之上的并行运算。 GP每个处理器都有自己的内存结构、操作系统和磁盘。 可以处理多个T的数据仓库,可以非常好的利用系统资源做并行查询。 GP后端是多个PostgreSQL(8.2.13----GP3.3.5)数据库,为整体的并行运算提供的解决方案。 其中的语法与函数是和PostgreSQL是极为相似的。 GP实际是将PostgreSQL进行修改、封装,就变为了商业版的GP数据库。对其中的许多功能进行修改、增强,使其适应并行处理的环境。 GP通过内部连接,是很多个独立的PostgreSQL数据库变成了一个逻辑数据库。对于客户端来说就是一个整体。 GP数据库非常适合用于BI环境当中,并专门针对此做了多处优化、增强。例如:并行数据加载、外部表、资源管理(resource management--控制单笔事物对资源的占用的,保障能够进行多笔事物处理,解决了并发处理的问题)、查询优化器和存储都进行了改善。 改善的目的: 提供一个可以进行多事物处理的并行运算环境。 GP公司将改善的这些特性又提供给了PostgreSQL的公共社团,例如分区表特性,已经被标准的PostgreSQL所应用。 架构: 如图所示: 客户端通过网络连接到GP database,其中Master Host是GP的主节点(客户端的接入点),Segment Host是子节点(连接并提交SQL语句的接口),主节点是不存储用户数据的,子节点存储数据并负责SQL查询,主节点负责相应客户端请求并将请求的SQL语句进行转换,转换之后调度后台的子节点进行查询,并将查询结果返回客户端。 子节点:进行数据存储及数据处理的。 主节点:进行工作调度的。 详细讲Greenplum Master 因为GP数据库是基于PostgreSQL的,终端用户与GPdatabase进行交互时(与主节点Master)进行交互,就好象典型的PostgreSQL 在与客户端进行交互一样。可以通过JDBC和ODBC和PostgreSQL的客户端psql进行连接时可以认为是一个PostgreSQL。 主节点中存储了系统目录,系统目录类似于Oracle中的数据字典,存储的是系统表以及包括了元数据。解释为:在建表时元数据(metadata)是在主节点上,但是数据是在子节点上。 主节点还包括用户认证功能。(客户端连接时的密码校验等) 处理又客户端发起的SQL请求、分发工作到后端子节点当中,并且将结果返回客户端。 详细讲Greenplum Segments 子节点负责数据处理和数据存储的功能,用户定义的表和索引被分发到子节点当中,子节点包含每一个数据的分片,这些分片是完全独立的,不会有重复的数据出现在两个节点当中。 例如:一张表中有4行,有两个子节点,4行是分布在两个子节点,其中任何一行都不可能同时出现在两个子节点上面。因为这两个子节点最后呈现给客户端来说就是一个逻辑的数据库。 GP公司建议按照硬件服务器的处理器or Core来分配子节点的个数,也就是说有多少个Core分配多少Segment。 但是,实际经验表明,当处理器的核数较多是,分配了多个子节点,这是的存储、内存和CPU都会产生冲突,尤其是CPU,由于数据仓库的海量数据,在使用数据压缩技术时消耗CPU资源严重,一般建议4Core左右布置一个Segment 每个子节点必须是在不同的网段。 详细将Greenplum Interconnect GP内部连接实际上是网络基础(实际上是指Internet,多节点并行计算,多个节点之间是有数据交互的,这个交互就是通过Interconnect来进行)。 GP将内部连接(Interconnnent)称之为Inter-process communication---IPC内部进行通信。 建议至少使用1GB的光纤接口通过光纤交换机来实现。实际测试证明1GB光纤足够。 Segment的个数与服务器的网卡个数为1:1,以保障充分利用网络带宽,而不会有网络带宽冲突出现。 在默认情况内部连接(Interconnect)是使用UDP(Usre Datagram Protocol)协议的。如果要使用TCP协议的话会受到限制,限制为不能超过1000个子节点(Segment

文档评论(0)

wangz118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档