MPP数据库对比课案.doc

下载文档 降价啦

7
0
约7.11千字
约 11页
2017-05-26 发布于湖北
举报
版权申诉
保障服务

MPP数据库对比课案.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

MPP数据库对比课案

概述随着海量数据问题的出现，海量管理能力，多类型，变化快，高可用性，低成本，高端可扩展性等需求给企业数据战略带来了巨大的挑战。企业数据仓库、数据中心的技术选型变得尤其重要！所以在选型之前，有必要对目前市场上各种大数据量的解决方案进行分析。主流分布式并行处理数据库产品介绍 Greenplum 基础架构 Greenplum是基于Hadoop的一款分布式数据库产品，在处理海量数据方面相比传统数据库有着较大的优势。 Greenplum整体架构如下图：数据库由Master Severs和Segment Severs通过Interconnect互联组成。 Master主机负责：建立与客户端的连接和管理；SQL的解析并形成执行计划；执行计划向Segment的分发收集Segment的执行结果；Master不存储业务数据，只存储数据字典。 Segment主机负责：业务数据的存储和存取；用户查询SQL的执行。主要特性 Greenplum整体有如下技术特点： Shared-nothing架构海量数据库采用最易于扩展的Shared-nothing架构，每个节点都有自己的操作系统、数据库、硬件资源，节点之间通过网络来通信。基于gNet Software Interconnect 数据库的内部通信通过基于超级计算的“软件”内部连接层基于通用的在节点间传递消息和数据采用高扩展协议，支持扩展到个以上节点 Vertica 基础架构与以往常见的行式关系型数据库不同，Vertica 是一种基于列存储（Column-Oriented）的数据库体系结构，这种存储机构更适合在数据仓库存储和商业智能方面发挥特长。常见的RDBMS 都是面向行（Row-Oriented Database）存储的，在对某一列汇总计算的时候几乎不可避免的要进行额外的I/O 寻址扫描，而面向列存储的数据库能够连续进行I/O 操作，减少了I/O 开销，从而达到数量级上的性能提升。同时，Vertica 支持海量并行存储（MPP）架构，实现了完全无共享，因此扩展容易，可以利用廉价的硬件来获取高的性能，具有很高的性价比。如下图，展示的是单节点上的Vertica 的基本体系结构。 Vertica 体系结构作为关系型数据库，Vertica 的查询SQL 也是在前端被解析和优化的。但与传统的关系型数据库有所不同，Vertica内部是混合存储的，包括两种不同的存储结构：写优化器（WOS）和读优化器（ROS）。 (1) 写优化器WOS（Write-Optimized Store）是位于主存储器上的一个数据结构，用于有效的支持数据插入和更新操作；数据的存放是无序的，非压缩的。 (2) 读优化器ROS（Read-Optimized Store）是磁盘物理存储，存放的是排序和压缩后的数据库大块数据，因此这里的查询相比于WOS 性能更好。 (3) Tuple Mover 进程是Vertica 内部的一个进程，定期的以大数据块的形式把数据从WOS 移到ROS，由于是对整个WOS 操作，TupleMover 一次能非常有效的排序很多记录，最后批量把它们写入磁盘。在Vertica 内部，不论是WOS 还是ROS 都是按列存储的。主要特性 Vertica 的关键特性： 1 列存储（Column-orientation）由于大多数的查询都是要从磁盘读取数据，因此可以说disk I/O 在很大程度上决定了一个查询的最终响应时间。 2 压缩机制（Aggressive Compression）在数据存储方面，Vertica 利用内部的特定算法对数据进行压缩处理。这样的机制会大大减少disk I/O 的时间（D），同时由于Vertica 对扫描和聚合等操作也在内部进行了优化，可以直接处理压缩后的数据，这样CPU 的工作负载（C）也减少了。如上例中的AVG 聚合函数，Vertica 是不需要将压缩数据先做类似解压这种处理的，因此查询性能得到优化。 3 读优化存储（Read-Optimized Storage） Vertica 的数据库存储容器ROS Container 专门为读操作进行了优化设计，且其中的数据是经过了排序和压缩处理的，即每个磁盘页上不会有空白空间，而传统的数据库一般会在每页上预留空间以便日后的insert 操作来使用。 4 多种排序方式的冗余存储为了高可用性和备份恢复的需要，Vertica 会按照不同的排序方式对数据做冗余存储，这不但避免了大量的日志操作，也为查询带来了便利。Vertica 的查询优化器会自动选择最优的排序方式来完成特定的查询。 5 并行无共享设计 Vertica 支持完全无共享海量并行存储（MPP）架构，随着硬件Server 的增加，多个CPU 并行处理，性能也可以得到线