列存储内存数据库的压缩算法的应用分析-application analysis of compression algorithm for column storage memory database.docxVIP
- 6
- 0
- 约4.83万字
- 约 65页
- 2018-05-29 发布于上海
- 举报
列存储内存数据库的压缩算法的应用分析-application analysis of compression algorithm for column storage memory database
中文摘要中文摘要近年来随着各个行业数据量的大幅度增长,如金融,电信行业等,使得存 储费用和管理费用也随之增长。面对信息量不断膨胀的问题,数据库系统采用 压缩数据的方法保存数据,同时为了提高压缩比和便于OLTA(在线事务分析) 统计分析的需求,也采用了列存储数据的方法。在列存储压缩数据库的使用中,面临着如何提取源数据的问题,经过压缩 后的数据需要解压缩后才能提取数据,为了避免全体解压缩后再提取数据的弊 端,需对压缩算法进行选型,要求压缩算法能够在压缩态直接提取源数据,而 不必全体解压。但是这种在压缩态直接提取源数据的方法,有其自己的弊端, 就是在压缩态直接提取数据的时候,需要从头遍历压缩态数据,这样会浪费大 量的时间,尽管在C STORE中提出了分块压缩的思想,但是在本质上没有减 少磁盘的IO,本文以此为切入点,对于能够在压缩态提取数据的压缩算法加以 共性的优化。首先优化了现有的分块压缩的思想。原有的分块压缩技术之所以 没有成功的减少磁盘IO,是因为压缩后的数据块头部之间在磁盘上的间隔距离 过小,在数据库块间定位的时候,无法避免磁盘的连续读取,为了解决此问题, 本文给出了一个典型的解决办法,加大块的压缩粒度,从而增大了数据块的头 部之间在磁盘上的间隔距离,在块间寻址的时候,可以跳跃大量不必要的磁盘 块,从而减少了磁盘IO。其次,为了进一步提高压缩态数据的提取速度,本文 给出了“千存零取机制,目的是提高块内提取数据的速度。以1000个数据为 基准,每整千个数据的块内偏移记录在块的头部字段内,当提取数据的时候, 可以在头部立刻定位到附近的一个整千位的数据,然后再以此为始遍历数据, 这样大量的减少了块内提取数据的速度。经过测试验证,优化后的压缩方法,能够大幅度提高数据提取的时间,理论上能够节省(1-R/m)*100%的时间,其中4_R铷,R为压缩比,111为压缩粒度,为了达到提取数据效率的最大化,应取使得R/m为最小值的m的值。关键字:数据库列存储压缩压缩态访问AbstractRecent years,晰tll a substantial amount of data in various growth industries such as financial,telecommunications industries,making storage costs andmanagement COSts will increase.Face the problem of expanding the amount ofinformation,database systems use data compression method to save data,to improve the compression ratio and easy OLTA(online transaction analysis)statistical analysis of demand,but also used the column stored data.Compressed database stored in the column in use,face the problem how toextract soRrce data,after the compressed data needs to be unzipped to extract data,in order to avoid extracting data after extracting all the drawbacks,be on the compression algorithm selection require compression algorithm Can be directly extracted in the compressed state of the source data,without having to extract a11.But this state in the direct extraction of source data compression method has its own disadvantages,that is,to extract data directly in the compressed state when the data need to traverse the compressed state,this will waste a lot of time,although C——STORE proposed a sub-block compression idea,but essentially no redu
您可能关注的文档
- 兰新线电气化改造工程大风区段行车安全分析-analysis of driving safety in high wind section of electrification reconstruction project of lanzhou - xinjiang railway line.docx
- 留守儿童关爱服务体系下的媒介接触研究——以安徽省怀宁县为例-research on media contact under caring service system for left-behind children - a case study of huaining county, anhui province.docx
- 快速城市化背景下城市空间结构演变研究——以临沂市为例-study on the evolution of urban spatial structure in the context of rapid urbanization - a case study of linyi city.docx
- 冷弯薄壁型钢混凝土组合楼盖受力性能研究-research on mechanical properties of cold-formed thin-walled steel reinforced concrete composite floor.docx
- 家用电器数据管理系统开发项目可行性研究报告.docx
- 年产10亿只气球生产项目可行性研究报告.docx
- 偏氯乙烯项目可行性研究报告.docx
- 竹笋可行性研究报告.docx
- 商品交易市场项目可行性研究报告.docx
- 电镀铁丝项目可行性研究报告.docx
最近下载
- 2026年湖南高速铁路职业技术学院单招职业适应性测试题库附答案.docx VIP
- 5G网络优化:5G网络性能优化_(2).5G无线接入技术.docx VIP
- 2026年《国企时事政治试题及完整答案.docx VIP
- 山东外贸职业学院单招语文模拟试题及答案.docx VIP
- 2024CSCO头颈部肿瘤诊疗指南.pptx VIP
- 【倍福BECKHOFF】手册:TwinCAT 2 PLC入门教程V2.42.pdf VIP
- 人教版劳动教育四年级下册全册教案.pdf VIP
- (2026春新版)教科版二年级科学下册《1.1 恐龙的故事》PPT课件.pptx VIP
- 2025年烟台南山学院单招综合素质考试题库及答案一套.docx VIP
- 2026年湖南高速铁路职业技术学院高职单招职业适应性测试备考试题及答案解析.docx VIP
原创力文档

文档评论(0)