Greenplum 分布式数据仓库白皮书.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Greenplum 分布式数据仓库白皮书

Greenplum 数据仓库白皮书 Greenplum 公司简介 Greenplum公司是世界领先的数据仓库基础平台供应商。它的杰出创新数据仓库软件产品技术,引领着数据仓库领域和数据分析领域的发展方向。Greenplum 公司的产品有Greenplum Database,Greenplum Chrous—世界首创企业数据云平台(Enterprise Data Cloud platform)。它的这些产品和服务体现了云计算、虚拟化计算、数据间社会关系的技术,使得全球各类组织可以比从前更好地从数据里获取更深的和更有价值的知识。 每一天,全球有数亿级的用户在直接、间接用到Greenplum发明的数据仓库平台。 Greenplum 是2003年成立的,核心技术团队成员来自各个顶级数据库公司和大规模并行计算公司的资深软件架构师,例如:Oracle, Teradata, Tandem, Microsoft SQLServer, Informix, Netezza, Amazon, eBay, S,Yahoo. Greenplum 创新研发的产品有: Greenplum Database Greenplum数据库软件是业内首创的大规模并行处理(massivelyparallel processing (MPP))的数据库软件产品,它包含大规模并行计算技术和数据库技术最新的研发成果:包括无共享/MPP,按列存储数据库,数据库内压缩,MapReduce,永不停机扩容,多级容错等等。 该软件产品被业界认可为扩展能力最大的分析型(OLAP)数据库软件。已有100多家世界级重大客户采用该软件,例如:NYSE,NASDAQ,AIG,德意志银行,美国联邦储备委员会,支付宝,淘宝,NTT-DoCoMo,T-Mobile,Skype,WalMart,中国电信等。 Greenplum Chorus 该产品是世界首创的企业数据云平台产品。它可以帮助客户构建数据仓库虚拟化计算环境,为各个不同的数据计算模型和任务创建自治的虚拟化数据仓库,把结构化,非结构化,数据量大小各异的各种数据都集中管理起来。同时,Greenplum数据库软件的并行化,为各个虚拟化数据仓库都提供了很高的处理速度,大大提高各个虚拟数据库上各个分析模型、任务的处理效率和分析质量。 Greenplum的产品线示意如下图: Greenplum现有客户涵盖:金融,电信,互联网,零售,运输,医药,政府等行业。这些客户中大多数Greenplum数据仓库所管理的数据量都超过100TB,其中,全球最大的有6500TB,中国最大的有400TB。 Greenplum 分布式数据仓库软件特性介绍 Greenplum数据仓库软件是业界首创将大规模并行计算技术,应用到了数据库软件领域。该类技术同样应用在Google搜索引擎的中。 Greenplum数据仓库软件功能: 无共享/MPP核心架构 Greenplum数据库软件将数据平均分布到系统的所有节点服务器上,所以节点存储每张表或表分区的部分行,所有数据加载和查询都是自动在各个节点服务器上并行运行,并且该架构支持扩展到上万个节点。 混合的存储和执行(按列或按行) Greenplum发明支持混合按列或按行存储数据,每张表或表分区可以由管理员根据应用需要,分别指定存储和压缩方式。 基于这个功能,用户可以对任何表或表分区选择按行或按列存储数据和处理方式。这些是在建表或表分区的DDL语句中配置的,只需在建表或表分区时指定: 这个功能基于Greenplum的多态维数据存储技术。 多层次的容错能力 Greenplum 数据仓库软件自己包含多层次容错和冗余能力,这是云计算架构软件的一个重要特征。该功能保证整个数据仓库系统在遇到硬件、软件的故障的情况下,任然自动继续运行。 在线系统扩容(永不停机) 在系统中增加节点服务器即可增加存储容量,处理性能和加载性能。当系统扩展时,数据仓库保持在线,并且完全可用,扩展进程在后台运行。增加节点服务器,性能和容量线性增加。 负载管理(Workload Management) 具有系统资源管控能力,并且可控制给各个查询分配各自系统资源。允许管理员指派资源队列,从而管理数据仓库的队列进入执行情况。在运行的查询的优先级可以随时调整。 PB级的装载能力 基于MPP Scatter/Gather流技术的高性能并行加载功能。加载速度随着节点线性增加,实际超过4TB/小时。 灵活的外部数据访问 数据仓库软件可在任意外部数据源上并行运行常规SQL,不论外部数据源的位置,格式或存储介质。 数据库内压缩 利用业界领先的压缩技术,进一步提高性能,并极大地节省了数据存储空间。用户可获得3-10倍的空间节省,并且同时获得相应有效I/O性能提升。 多层次表分区能力 允许灵活地按照时

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档