列存储技术在大数据中分析中优势分析.docVIP

下载本文档

9
0
约4.41千字
约 9页
2018-08-23 发布于福建
举报
版权申诉

列存储技术在大数据中分析中优势分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

列存储技术在大数据中分析中优势分析

列存储技术在大数据中分析中优势分析　　[摘要] 针对当前传统数据库技术对大数据进行分析时系统性能严重下降、查询效率受限的问题，本文研究分布式文件系统中数据读取关键技术。在分布式系统中，数据的存储结构直接影响着大数据的存储效率和处理性能，本文基于行列存储结构的特点，综合比较不同存储的模式在大数据应用中的优劣，展望未来研究与应用方向。　　[关键词] 大数据；列存储；MapReduce；　　1 引言　　在信息化技术高度发展的今天，大数据应用变得日渐普及而且非常重要。鉴于传统关系型数据库在大数据应用领域应用时遇到的困难，基于分布式的海量数据管理是当前的研究热点，这就包括如何有效地存储和处理这些增长迅速的海量数据。　　一半而言大数据的数据规模可以达到PB级，这就对存储空间和计算能力提出了很高的要求，大数据存储的数据类型多，复杂度高。大数据环境下，对数据存储的组织和管理提出了更高的要求。本文在分析列存储技术和分布式存储系统HDFS 局限性基础上，重点研究了数据存放结构，综述了各项关键技术当前的研究现状，分析了现有技术存在的问题探讨如何使用列存储技术提升大数据存储和处理的性能以提升大数据查询的效率，并展望了未来研究的发展方向。　　2 列存储技术　　2.1 列存储方式　　自SIGMOD85会议论文A Decomposition Storage Model [ ] 提出了DSM概念以来，经历30年的发展，在Stonebraker 、Abadi、 Boncz 等为首的一批数据库专家的大力提倡下，列存储相关技术及应用快速得到了快速发展，这种技术的特点是对复杂数据的查询效率高，读取磁盘少，存储空间占用少。这些特点使其大数据和OLAP应用存储的理想结构。　　列存储是相对于行存储而言的，列存储最核心的技术就是基于垂直分区的存储设计和访问模式。列存储系统将数据库完全划分为多个独立的列的集合进行存储，图1展示了行存储和列存储的在物理存储设计上的本质区别，展示了3种数据库的存储方式，其中图 1（a）和图 1（b））是两种列存储的方式，每一列单独保存Sales表中的每个属性数据对象，图1（c）是行存储形式。　　列存储数据库只需查询读取涉及关系中某些数据列，避免无关列的提取，不像行存储那样需要从磁盘读取整行信息并去除不需要的属性信息，从而减少I/O和内存带宽的占用，提高查询效率。而且，同一列数据属性相同，可以使用针对性的压缩算法，因此压缩效率高。C-Store[ ]和Monet DB[ ]是其中有影响力的代表性成果，它们在存储结构、查询优化、压缩等方面进行了很多技术创新，使得列存储相比较行存储而言更适合大规模的访问和查询。　　2.2 列存储关键技术　　（1）压缩技术　　Abadi D J [ ]在SIGMOD06会议上提出列存储的主要压缩方法有：行程编码算法、词典编码算法、位向量编码算法。　　①行程编码算法（Run-length Encoding-RLE）　　行程编码算法用一个三元组记录数据值。这个三元组记录包括数据出现的起始位置和持续长度（即行程），目的在于压缩原始数据的长度，适用于相同数据连续存储的情况，三元组描述为（ X，Y，Z），X 表示数据的值，Y 表示数据起始位置，Z 表示长度。举例而言假如在一个列中初始的50个元素中包含值‘W’，则这50个元素可以表示为三元组（‘W’， 1， 50）。　　该技术适用于重复数据较多的的数据列，具有较好的压缩效果，缺点是对列值的重复性及排序要求较高。　　②词典编码算法（Dictionary Compression）　　词典编码算法将原始值转换成替代值存储在系统中，所以会产生 “原始值-替代值”对照词典，替代值的长度大大小于原始值的长度，从而达到压缩存储空间的目的。如图2 所示，可以用简单的两位数字代替原始字符串，从而缩短所需存储空间。　　该算法对于数据类型要求较低，不要求数据排序，缺点是要创建词典表，维护成本高，如果数据重复性不高则词典表会过于庞大。　　③位向量编码算法（Bit-Vector Encoding）　　位向量编码是为每一个不同的取值生成一个位向量，根据位向量（串）中不同的位置取值0或1 来对应并确定不同的原始值。位向量编码算法是轻量级的编码算法，可以直接在压缩数据上进行操作，可以降低CPU 成本。例如对以下的列存储数据：　　该算法对数据类型要求不高，在有些情况下查询效率甚至高于词典编码，缺点是位置数据会因为取值空间的太大或者重复性低导致空间占用较大。　　对于列存储主要应用的海量数据查询分析领域，有效压缩是一个十分重要的优势。　　（2）延时物化　　延时物化的主要优点在于允许对压缩态的列存