Greenplum-数据库最佳实践.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? 介绍 本文介绍 Pivotal Greenplum Database 数据库(以下简称: Greenplum 数据库,或 GPDB )的最佳实践。 最佳实践是指能持续产生比其他方法更好结果的方法或者技术,它来自于实战经验,并被 证实了遵循这些方法可以获得可靠的预期结果。本最佳实践旨在通过利用所有可能的知识 和技术为正确使用 GPDB 提供有效参考。 本文不是在教您如何使用 Greenplum 数据库的功能,而是帮助您在设计、实现和使用 Greenplum 数据库时了解需要遵循哪些最佳实践。关于如何使用和实现具体的 Greenplum 数据库特性,请参考 上的 Greenplum 数据库帮助文档以及 上的 Sandbox 和实践指南。 本文目的不是要涵盖整个产品或者产品特性,而是概述 GPDB 实践中最重要的因素。本文 不涉及依赖于 GPDB 具体特性的边缘用例,后者需要精通数据库特性和您的环境,包括 SQL 访问、查询执行、并发、负载和其他因素。 通过掌握这些最佳实践知识,会增加 GPDB 集群在维护、支持、性能和可扩展性等方面的 成功率。 第一章 最佳实践概述 本部分概述了 Greenplum 数据库最佳实践所涉及的概念与要点。 数据模型 GPDB 是一个基于大规模并行处理 (MPP) 和无共享架构的分析型数据库。这种数据库的数 据模式与高度规范化的事务性 SMP 数据库显著不同。通过使用非规范化数据库模式,例 如具有大事实表和小维度表的星型或者雪花模式, GPDB 在处理 MPP 分析型业务时表现 优异。 跨表关联 (JOIN) 时字段使用相同的数据类型。 详见数据库模式设计(后续章节 ) 堆存储和追加优化存储 (Append-Optimized ,下称 AO) 若表和分区表需要进行迭代式的批处理或者频繁执行单个 UPDATE 、DELETE 或 INSERT 操作,使用堆存储。 若表和分区表需要并发执行 UPDATE 、DELETE 或 INSERT 操作,使用堆存储。 若表和分区表在数据初始加载后更新不频繁,且仅以批处理方式插入数据,则使用 AO 存 储。 不要对 AO 表执行单个 INSERT 、UPDATE 或 DELETE 操作。 不要对 AO 表执行并发批量 UPDATE 或 DELETE 操作,但可以并发执行批量 INSERT 操 作。 详见堆存储和 AO 存储(后续章节 ) 行存储和列存储 若数据需要经常更新或者插入,则使用行存储。 若需要同时访问一个表的很多字段,则使用行存储。 对于通用或者混合型业务,建议使用行存储。 若查询访问的字段数目较少,或者仅在少量字段上进行聚合操作,则使用列存储。 若仅常常修改表的某一字段而不修改其他字段,则使用列存储。 详见行存储和列存储(后续章节 ) 压缩 对于大 AO 表和分区表使用压缩,以提高系统 I/O 。 在字段级别配置压缩。 考虑压缩比和压缩性能之间的平衡。 详见压缩(后续章节 ) 分布 为所有表定义分布策略:要么定义分布键,要么使用随机分布。不要使用缺省分布方式。 优先选择可均匀分布数据的单个字段做分布键。 不要选择经常用于 WHERE 子句的字段做分布键。 不要使用日期或时间字段做分布键。 分布键和分区键不要使用同一字段。 对经常执行 JOIN 操作的大表,优先考虑使用关联字段做分布键,尽量做到本地关联,以 提高性能。 数据初始加载后或者每次增量加载后,检查数据分布是否均匀。 尽可能避免数据倾斜。 详见分布(后续章节 ) 内存管理 设置 vm.overcommit_memory 为 2 不要为操作系统的页设置过大的值 使用 gp

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档