基于闪存的浓缩数据立方存储分析-analysis of concentrated data cube storage based on flash memory.docxVIP

下载本文档

2
0
约3.61万字
约 47页
2018-05-20 发布于上海
举报
版权申诉

基于闪存的浓缩数据立方存储分析-analysis of concentrated data cube storage based on flash memory.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于闪存的浓缩数据立方存储分析-analysis of concentrated data cube storage based on flash memory

独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文属于保密□，在年解密后适用本授权书。不保密□。（请在以上方框内打“√”）学位论文作者签名：指导教师签名：日期：年月日日期：年月日1绪论1.1研究背景及意义联机分析处理（Online Analytical Processing， OLAP）的概念是由 E. F. Codd 于 1993 年提出，为了给用户提供直观的多维考察和分析数据支持，通常将多维视图作为各种前端分析工具的概念模型。数据立方（Data Cube）[1] 称源表中考察的目标属性为度量，称用户观察角度的属性为维，因此我们采用数据立方作为这样一种多维视图。数据立方对基本关系表中的数据在所有维属性组合上计算聚集。由于 OLAP 用来管理决策所需要的数据量巨大，而且往往还要满足用户的即时查询，及时地向用户提供分析的数据，从而对查询响应速度提出了更高的要求。为了提高 OLAP 查询响应速度。一般将存储在数据立方中的原始数据进行聚集计算，然后对数据立方进行存储，但是由于数据立方通常按照源表维数的指数增长，其尺寸是相当庞大的。内存实化数据立方虽然能够通过避免 I/O 加快响应速度，但是内存空间有限，完全内存实化数据立方是不现实的。而在传统的磁盘上实化又存在令人头疼的 I/O 问题。SSD 作为一种纯电子设备，能够解决传统磁盘 I/O 操作中的机械延迟，本文结合内存实化和 SSD 实化建立两级存储模型，即按照两种粒度进行内存和 SSD 实化数据的选择，即小方级别的选择和元组级别的选择。在容量大的 SSD 中从最细粒度的元组开始实化，这样保证所有查询都能响应，在容量小的内存中选择实化较粗粒度的小方，从而保证了快速响应点查询和准确处理范围查询。但是由于闪存的硬件特性使得读写速度不对称性，不可重复写以及擦除次数有限，直接采用传统的索引给查询和更新维护带来了很大的的难度，因此如何根据闪存特性构建在 SSD 上的索引将直接影响 OLAP 查询效率和数据质量，尤其是更新维护的效率。在考虑应用于 SSD 环境的索引结构时，还需要考虑 SSD 的 I/O 特性，比如 SSD 的连续写性能优于随机写性能等[2]。为解决上述问题，不少国内外研究者已经提出基于闪存的多种索引结构，在总结现存的基于闪存的索引结构的优点及问题的基础上，本文提出了一种更加高效的闪存索引结构-多级动态完美哈希索引，将写操作转变为串行化的操作序列，以逐一追加的方式解决了由数据插入引发的“频繁写”问题[3]，从而提高数据立方的查询更新性能。在国内外学者大量相关研究的基础上，本文将结合浓缩数据立方，探索两级存储结构，充分利用 SSD 特性，构建在 SSD 上的索引，加快 OLAP 查询的响应速度和更新效率，从而提高 OLAP 应用系统的整体性能。1.2国内外概况OLAP 作为一项为企业提供决策的数据分析处理技术，涉及的查询通常需要巨大计算量的聚集数据或者数据的趋势等结果。而查询的响应速度随着 OLAP 数据量的急剧增长以及查询的复杂性而变慢。这种延迟在大多数 OLAP 系统中是不可接受的。特别当基础数据源由于插入、删除和修改而引起数据更新时，数据立方实化的结果需要定时的或按需进行更新维护，以确保查询的数据质量和数据的准确性。随着数据源的变化而更新维护的过程加剧了查询响应延迟。为了达到 OLAP 查询速度的要求，一般是将经常可能访问的数据集预先计算出来并存储在内存或者外存[4]来避免复杂的联机计算。这些被保存在内存或外存的数据称为实化视图。视图的维护很大程度上取决于索引结构的选择。一种合适的索引结构对于数据的查询，更新维护都有决定性的意义。1.2.1数据立方为了把数据组织成多维的形式，方便直观地支持联机分析处理(OLAP)所需的多维分析，数据立方(data cube)算子 CUBE BY[5]的概念被 Dr. Jim Gray 等人在 1996 年首先提出了，它用于计算 CUBE BY 子句中各属性的全部可能组合所对应的 GROUP BY，扩展了传统的 GR