基于列存储大规模并行数据库应用技术.docVIP

基于列存储大规模并行数据库应用技术.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于列存储大规模并行数据库应用技术

基于列存储大规模并行数据库应用技术   [摘 要] 大数据分析已经成为当前研究和应用的热点问题,针对当前传统数据库技术对大数据进行分析时系统性能严重下降、查询效率受限的问题,综合比较列存储和MPP数据库技术的特点,重点研究了列存储与大规模并行(MPP)数据库的融合,探讨大数据实时分析方案以提高大数据的存储效率和处理性能。   [关键词] 大数据;列存储;MPP数据库   doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 11. 106   [中图分类号] TP309.3 [文献标识码] A [文章编号] 1673 - 0194(2016)11- 0177- 04   1 引 言   在信息化技术高度发展的今天,大数据应用变得日渐普及而且非常重要。鉴于传统关系型数据库在大数据应用领域应用时遇到的困难,基于分布式的海量数据管理是当前的研究热点,其中就包括如何有效地存储和处理这些增长迅速的海量数据。   现有大数据处理技术主要有对称多处理机架构(SMP)和大规模并行处理架构(MPP)两大类。在数据量极速增长的大数据背景下,计算分布和存储分布的MPP架构成为主流。MapReduce[1]分布式并行计算是MPP架构的代表。Hadoop[2]是MapReduce分布式计算框架的实现,为大数据处理大型分布式集群,通过分布式存储系统HDFS(Hadoop Distributed File System)[3]来管理海量数据。本文重点研究了列存储结构在MPP数据库中的应用,概述了列存储技术和MPP数据库,用Vertica为例分析了基于列存储的MPP数据库关键技术,并展望了未来MPP数据库研究的的发展方向。   2 列存储技术的优势   列存储最核心的技术就是基于垂直分区的存储设计和访问模式。列存储数据库完全划分为多个独立的列的集合进行存储,这种技术的特点是对复杂数据的查询效率高,读取磁盘少,存储空间占用少。这些特点使其成为大数据和OLAP应用存储的理想结构。   列存储数据库只需查询读取涉及关系中某些数据列,避免无关列的提取,不像行存储那样需要从磁盘读取整行信息并去除不需要的属性信息,从而减少I/O和内存带宽的占用,提高查询效率。而同一列数据属性相同,可以使用针对性的压缩算法,因此压缩效率高。C-Store[4]和Monet DB[5]是其中有影响力的代表性成果,它们在存储结构、查询优化、压缩等方面进行了很多技术创新,使得列存储相比较行存储而言更适合大规模的访问和查询。   列存储技术的学术价值和商业价值以及主要关键技术, 包括基于其主要存储原理的存储压缩、 延时物化、 成组叠代、 查询优化、 索引及加密等。列存储的应用价值来自它对复杂查询的灵活快速以及压缩所带来的存储优势, 这使其在数据仓库和商务智能方面具有良好的应用前景,已经有许多分析性数据库引入了列存储技术,其中Vertica以及Greenplunm等都是采用了列存储技术的MPP数据库,在企业决策分析与决策领域有许多成功应用。   列存储数据分析在商务智能领域应用中有着先天的优势: 独特的存储方式, 能够迅速地执行复杂查询; 列数据库的压缩技术, 更是能为数据仓库、 商务智能应用中巨大的数据节约存储成本; 列数据库先进的索引技术也大大提高了数据库的管理。按列存储的结构, 便于在列上对数据进行轻量级的压缩, 列上多个相同的值只需要存储一份, 按列存储和压缩能将更多的数据压缩在一起, 则在每次读取时就可以获得更多的数据,压缩能够大量地降低存储成本。按列存储和压缩能将更多的数据压缩在一起, 则在每次读取时就可以获得更多的数据。列存储技术在数据分析领域的应用优势主要体现在:对于列的 DML (Data Manipulation Language) 操作, 仅对列所对应的数据扫描, 不对全表进行数据访问, 可以有效降低 DML操作的 I/O, 同时按列压缩的特点也同样能减少数据挖掘时的I/O吞吐量[6]。   列存储的关键技术有压缩技术、物化技术、成组迭代等。Abadi DJ[7]在SIGMOD06会议上提出列存储的主要压缩方法有:行程编码算法、词典编码算法、位向量编码算法;延时物化,如Abadi DJ在文献[8]中,详细介绍了提前物化和延迟物化两种物化方式的实验过程,证明延时物化许多性能上的潜力只有在列存储数据库中才能发挥,在文献[9]比较了提前物化和延时物化的优劣,在延时物化引入横向信息传递技术应用,有效解决了溢出连接产生的性能下降问题。   3 大规模并行数据库的列存储技术应用   3.1 MPP数据库   大数据处理的传统方法是使用并行数据库系统。并行数据库系统是在大规模并行处理系统(MPP)和集群并行计算环

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档