MPP大数据库对比解析总结计划报告总结计划.docxVIP

下载本文档

5
0
约8.48千字
约 15页
2020-12-08 发布于山东
举报
版权申诉

MPP大数据库对比解析总结计划报告总结计划.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实用标准概述随着海量数据问题的出现，海量管理能力，多类型，变化快，高可用性，低成本，高端可扩展性等需求给企业数据战略带来了巨大的挑战。企业数据仓库、数据中心的技术选型变得尤其重要！所以在选型之前，有必要对目前市场上各种大数据量的解决方案进行分析。主流分布式并行处理数据库产品介绍 2.1 Greenplum 2.1.1 基础架构 Greenplum 是基于 Hadoop 的一款分布式数据库产品，在处理海量数据方面相比传统数据库有着较大的优势。 Greenplum 整体架构如下图： SQL SQL ... MapReduc MapReduc Master Severs ... ... 查询解析、优化、分发 Network Interconnect Segment Severs ... ... 查询处理、数据存储 External Sources 数据加载数据库由 Master Severs 和 Segment Severs 通过 Interconnect 互联组成。文档实用标准 Master 主机负责：建立与客户端的连接和管理； SQL 的解析并形成执行计划；执行计划向 Segment 的分发收集 Segment 的执行结果； Master 不存储业务数据，只存储数据字典。 Segment 主机负责：业务数据的存储和存取；用户查询 SQL 的执行。 2.1.2 主要特性 Greenplum 整体有如下技术特点： Shared-nothing 架构海量数据库采用最易于扩展的 Shared-nothing 架构，每个节点都有自己的操作系统、数据库、硬件资源，节点之间通过网络来通信。基于 gNet Software Interconnect 数据库的内部通信通过基于超级计算的 “软件 Switch ”内部连接层，基于通用的 gNet (GigE ， 10GigE) NICs/switches 在节点间传递消息和数据，采用高扩展协议，支持扩展到 1000 个以上节点。并行加载技术利用并行数据流引擎，数据加载完全并行，加载数据可达到 4。 5T/ 小时（理想配置）。并且可以直接通过 SQL 语句对外部表进行操作支持行、列压缩存储技术海量数据库支持 ZLIB 和 QUICKLZ 方式的压缩，压缩比可到 10 ： 1。压缩数据不一定会带来性能的下降，压缩表通过利用空闲的 CPU 资源，而减少 I/O 资源占用。海量数据库除支持主流的行存储模式外，还支持列存储模式。如果常用的查询只取表中少量字段，则列模式效率更高，如查询需要取表中的大量字段，行模式效率更高。海量数据库的多种压缩存储技术在提高数据存储能力的同时，也可根据不同应用需求提文档实用标准高查询的效率 2.1.3 主要局限列存储模式的使用有限制，不支持 delete/update 操作。用户不可灵活控制事务的提交，用户提交的处理将被自动视作整体事务，整体提交，整体回滚。数据库需要额外的空间清理维护（ vacuum ），给数据库维护带来额外的工作量。用户不能灵活分配或控制服务器资源。对磁盘 IO 有比较高的要求。备份机制还不完善，没有增量备份。 2.2 Vertica 2.2.1 基础架构与以往常见的行式关系型数据库不同， Vertica 是一种基于列存储（Column-Oriented ）的数据库体系结构，这种存储机构更适合在数据仓库存储和商业智能方面发挥特长。常见的 RDBMS 都是面向行（ Row-Oriented Database ）存储的，在对某一列汇总计算的时候几乎不可避免的要进行额外的 I/O 寻址扫描，而面向列存储的数据库能够连续进行 I/O 操作，减少了 I/O 开销，从而达到数量级上的性能提升。同时， Vertica 支持海量并行存储（ MPP ）架构，实现了完全无共享，因此扩展容易，可以利用廉价的硬件来获取高的性能，具有很高的性价比。如下图，展示的是单节点上的 Vertica 的基本体系结构。文档实用标准 Vertica 体系结构作为关系型数据库， Vertica 的查询 SQL 也是在前端被解析和优化的。但与传统的关系型数据库有所不同， Vertica 内部是混合存储的，包括两种不同的存储结构：写优化器（WOS ）和读优化器（ ROS ）。 (1) 写优化器 WOS （Write-Optimized Store ）是位于主存储器上的一个数据结构，用于有效的支持数据插入和更新操作；数据的存放是无序的，非压缩的。 (2) 读优化器 ROS（ Read-Optimized