GPDB相关知识.docVIP

下载本文档

120
0
约1.98万字
约 22页
2016-05-07 发布于重庆
举报
版权申诉

GPDB相关知识.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

GPDB相关知识

Greenplum DB数据库开发相关知识目录目录 1 1. GP DB数据库部署结构及运算规则 2 2. 数据迁移过程 4 3. GP DB建分布表 4 4. 创建表 5 5. 修改表结构 6 6. 新建及修改索引 7 7. 创建及修改表空间 7 8. GP与ORACLE数据库数据类型/临时表/序列号/关联查询/函数用法区别 8 8.1. 基本数据类型差异 8 8.2. 临时表/序列号/关联查询用法差异 8 8.3. 函数用法差异 9 8.4. ORACLE中有而GP数据库中没有的函数 10 9. IF 语句用法 10 10. LOOP，WHILE，FOR 循环语句用法 11 10.1. LOOP 11 10.2. While循环语句用法 12 10.3. FOR循环用法 12 11. 增删改语句正确书写格式 12 12. 复合类型的创建及用法 13 12.1. 合类型描述一行或者一条记录的结构 13 12.2. 用所定义的类型来创建表 13 12.3. 复合类型在函数中的用法 13 13. 移植/ETL开发过程中的注意事项 13 14. 查询的并/交/差用法 14 15. GP数据加载 14 16. 表的逻辑备份方式 17 17. 备份数据库 18 18. 数据库物理表空间回收： 18 19. 表数据清空 18 20. GP分区表 18 21. GP数据库下建立用户及授权 18 22. 数据仓库优化原则 19 23. GP DB的SQL程序开发优化规范 20 24. GP Maste服务器切换流程 20 GP DB数据库部署结构及运算规则 (Figure 1.1 : GP数据库部署结构图) Master host : 存放所有表的全局目录，并生成执行计划给segment host去执行（在数据库安装时，仅在Master主机上安装即可，但是预配置信息，除了主备Master host外，还要在各个segment host上以同样的方式进行配置【配置步骤，请查看我写的《GP配置安装步骤》】），Segment Host执行完毕后，接收segment执行结果； Standby Master: 存放从Master host同步过来的信息； Segment Host:存放各个分布表的数据记录集合(即：所有表都存放在segment host上，见下图),并处理经Master Host解析过后的执行计划； (Figure 1.2 :表分布在GP数据库中的物理分布情况) (Figure 1.3 :GP并行查询内部运行流程图) (Figure 1.4) 数据迁移过程将数据从Oracle旧系统导出为数据文件；（需要依据新旧系统资源情况评估系统的导出/导入时间，选择空余时间进行，必要时可能需要停止外部访问以保证系统导出所需的资源，导出同一个时点的数据【在数据导出时需停止ETL加载】，以便进行数据比对）用外部表加载方式将数据快速加载到Greenplu外部表临时数据区；（GP文档描述：加载负荷率2TB/h） (Figure 2.1：Greenplum Parallel File Server (gpfdist)) 将临时表数据Insert到新系统物理模型(数据将经历如下层间的交换，最后得到最终的数据信息；L :接口层,G :差异分析层,M :合并层,C :计算层,I :指标层,W :宽表层)；增加用户并设置权限；建立系统备份与恢复机制 GP DB建分布表建分布表的原因：把表里存放的数据均匀的划分到各个Segment Host上；分布表的分类： Hash Distribution(默认分布方式，效率相对较优)：分布键个数大或等于1 个column,并被hash算法用作分配各行记录到各个段，分布键的同样的值将被hash到同样的segment（2行相同的记录，将分布到相同的段上）;选择唯一键（主键），将能确保数据最大限度的均匀分布（如果不指定分布键，将会默认按照主键或表的第一列作为分布键），在建表时如果不指定分布方式，GP将会默认选择使用hash方式进行数据分布； Random Distribution：表的各行记录将通过循环的方式存放到各个段上（对于2行相同的记录，会分布到不同的段上）。 (Figure 3.1：Hash Distribution与Random Distribution的区别) 创建表创建普通表： CREATE TABLE table_name ( column_1 integer PRIMARY KEY DEFAULT nextval(sequence_name),