列存储内存数据库的压缩算法的应用分析-application analysis of compression algorithm for column storage memory database.docxVIP

  • 6
  • 0
  • 约4.83万字
  • 约 65页
  • 2018-05-29 发布于上海
  • 举报

列存储内存数据库的压缩算法的应用分析-application analysis of compression algorithm for column storage memory database.docx

列存储内存数据库的压缩算法的应用分析-application analysis of compression algorithm for column storage memory database

中文摘要中文摘要近年来随着各个行业数据量的大幅度增长,如金融,电信行业等,使得存 储费用和管理费用也随之增长。面对信息量不断膨胀的问题,数据库系统采用 压缩数据的方法保存数据,同时为了提高压缩比和便于OLTA(在线事务分析) 统计分析的需求,也采用了列存储数据的方法。在列存储压缩数据库的使用中,面临着如何提取源数据的问题,经过压缩 后的数据需要解压缩后才能提取数据,为了避免全体解压缩后再提取数据的弊 端,需对压缩算法进行选型,要求压缩算法能够在压缩态直接提取源数据,而 不必全体解压。但是这种在压缩态直接提取源数据的方法,有其自己的弊端, 就是在压缩态直接提取数据的时候,需要从头遍历压缩态数据,这样会浪费大 量的时间,尽管在C STORE中提出了分块压缩的思想,但是在本质上没有减 少磁盘的IO,本文以此为切入点,对于能够在压缩态提取数据的压缩算法加以 共性的优化。首先优化了现有的分块压缩的思想。原有的分块压缩技术之所以 没有成功的减少磁盘IO,是因为压缩后的数据块头部之间在磁盘上的间隔距离 过小,在数据库块间定位的时候,无法避免磁盘的连续读取,为了解决此问题, 本文给出了一个典型的解决办法,加大块的压缩粒度,从而增大了数据块的头 部之间在磁盘上的间隔距离,在块间寻址的时候,可以跳跃大量不必要的磁盘 块,从而减少了磁盘IO。其次,为了进一步提高压缩态数据的提取速度,本文 给出了“千存零取机制,目的是提高块内提取数据的速度。以1000个数据为 基准,每整千个数据的块内偏移记录在块的头部字段内,当提取数据的时候, 可以在头部立刻定位到附近的一个整千位的数据,然后再以此为始遍历数据, 这样大量的减少了块内提取数据的速度。经过测试验证,优化后的压缩方法,能够大幅度提高数据提取的时间,理论上能够节省(1-R/m)*100%的时间,其中4_R铷,R为压缩比,111为压缩粒度,为了达到提取数据效率的最大化,应取使得R/m为最小值的m的值。关键字:数据库列存储压缩压缩态访问AbstractRecent years,晰tll a substantial amount of data in various growth industries such as financial,telecommunications industries,making storage costs andmanagement COSts will increase.Face the problem of expanding the amount ofinformation,database systems use data compression method to save data,to improve the compression ratio and easy OLTA(online transaction analysis)statistical analysis of demand,but also used the column stored data.Compressed database stored in the column in use,face the problem how toextract soRrce data,after the compressed data needs to be unzipped to extract data,in order to avoid extracting data after extracting all the drawbacks,be on the compression algorithm selection require compression algorithm Can be directly extracted in the compressed state of the source data,without having to extract a11.But this state in the direct extraction of source data compression method has its own disadvantages,that is,to extract data directly in the compressed state when the data need to traverse the compressed state,this will waste a lot of time,although C——STORE proposed a sub-block compression idea,but essentially no redu

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档