信息存储系统中重复数据删除技术的分析-analysis of deduplication technology in information storage system.docx
- 1、本文档共125页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息存储系统中重复数据删除技术的分析-analysis of deduplication technology in information storage system
独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和 集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人 承担。学位论文作者签名: 日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文属于保密□,在年解密后适用本授权书。 不保密□。(请在以上方框内打―√‖)学位论文作者签名:指导教师签名:日期:年月日日期:年月日摘 要重复数据删除技术是网络存储系统中一种数据无损压缩的解决方案,可以有效 地抑制数据存储开销过快的增长,缩减存储系统的构建以及运营管理的成本。在数 据信息量迅猛增长的背景下,重复数据删除技术得到了学术界和产业界广泛的关 注。但重复数据删除领域仍然存在诸多技术问题,如提高数据压缩率,减少处理时 间,优化数据可靠性等方面。针对上述存在的问题,论文从重复数据删除处理方法, 重复数据删除处理中的数据可靠性问题以及存储后台的数据分布策略三个方面展 开了深入的研究。通过理论分析模型以及现实数据集的实测分析,对影响重复数据删除处理效果 的因素展开了研究。目标数据的重复特征对重复数据删除处理的效果具有较大影 响,因此,提出了一种基于重复特征的重复数据删除策略,对数据压缩率以及处理 时间开销进行优化。该策略主要包括基于语义的数据分组策略和渐进式数据分割粒 度判定法。基于语义的数据分组策略根据语义信息对数据的重复特征以及相似性进 行判别并完成对目标数据的分组操作。渐进式数据分割粒度判定法是以数据分组为 操作单位,根据重复特征对数据分割策略进行合适地设置。实验测试表明基于重复 特征的重复数据删除策略相对于其它重复数据删除解决方案,在数据压缩率以及处 理时间开销上获得了更加优异的综合性能。针对重复数据删除处理中数据可靠性的问题提出了一种最优冗余度计算模型, 根据数据的引用热度提高目标数据的可靠性。为了将该理论模型应用到现实存储系 统中,采用抽取数据单元样本空间计算经验数值的方法对理论模型进行了可行性优 化,并提出一种基于引用热度的数据冗余策略。该数据冗余策略根据数据单元的相 关属性(数据单元的大小以及引用热度)配置最优的冗余度,确保目标数据集使用 最小的存储开销获得最优的数据可靠性。仿真实验验证了基于引用热度的数据冗余 策略的可行性和有效性。针对当前数据分布策略中灵活性不足的问题,提出了一种基于容量感知的数据 分布策略,以改善在物理节点间存储资源不相等的情况下存储负载的均衡程度。该策略提供了两种情况下的数据分布策略解决方案。在不考虑数据冗余度情况下,提出了一种基于容量感知的数据分布式策略,该策略基于一致性哈希数据分布算法, 引入了虚拟化的设计思路,采用虚拟节点分配法进行存储资源的分配;并采用基于 节点容量感知的负载均衡方法对物理存储节点之间的数据负载分布进行优化调整。 在考虑数据冗余度情况下,提出了一种支持多冗余度的数据分布策略,为数据冗余 策略提供灵活的平台支持,并对存储负载均衡程度进行优化。仿真测试结果表明两 种数据分布策略在各自应用背景下均有助于改善存储数据负载的均衡水平。关键词:网络存储,重复数据删除,数据冗余,数据可靠性,数据分布AbstractData deduplication technology is a lossless data compression method in network storage systems, which can limit the excessive growth of data storage overhead and reduce the cost of system construction and operation. As the amount of digital data growing explosively, the data de-duplication technology has attracted a great interest in both academia and industry. However, there are still many technical issues in this research area, such as improving data compression rate, pr
您可能关注的文档
- 新型输油气双金属复合管道腐蚀及可靠性分析-corrosion and reliability analysis of a new type of bimetallic composite pipeline for oil and gas transportation.docx
- 新型水基添加剂灭火有效性分析-analysis on the effectiveness of new water-based additives in fire fighting.docx
- 新型水泥干法线回转窑控制系统设计-design of new cement dry normal rotary kiln control system.docx
- 新型双肟及其镍ⅱ和钴ⅱ配合物的合成 晶体结构 光谱性质及抑菌活性研究-synthesis, crystal structure, spectral properties and antibacterial activity of novel dioxime and its nickel ⅱ and cobalt ⅱ complexes.docx
- 新型四重氢键聚氨酯扩链剂的合成 性能及应用分析-synthesis and application analysis of a new type of quadruplex hydrogen bonding polyurethane chain extender.docx
- 新型双核锌催化剂催化对映选择性合成手性α,β-二羟基酯的研究-study on enantioselective synthesis of chiral α, β - dihydroxy ester catalyzed by novel dinuclear zinc catalyst.docx
- 新型穗茎兼收型玉米收获机割台的分析-analysis on cutting table of new corn harvester with ear and stem integrated.docx
- 新型双凸极直流发电机的结构 原理和特性研究-research on the structural principle and characteristics of a new doubly salient dc generator.docx
- 新型双凸极直流发电机的结构 原理和特性分析-structural principle and characteristic analysis of a new doubly salient dc generator.docx
- 新型酞菁分子 自组装纳米结构合成及应用分析-synthesis and application analysis of self-assembled nanostructures of novel phthalocyanine molecules.docx
- 数据仓库:Redshift:Redshift与BI工具集成.docx
- 数据仓库:Redshift:数据仓库原理与设计.docx
- 数据仓库:Snowflake:数据仓库成本控制与Snowflake定价策略.docx
- 大数据基础:大数据概述:大数据处理框架MapReduce.docx
- 实时计算:GoogleDataflow服务架构解析.docx
- 分布式存储系统:HDFS与MapReduce集成教程.docx
- 实时计算:Azure Stream Analytics:数据流窗口与聚合操作.docx
- 实时计算:Kafka Streams:Kafka Streams架构与原理.docx
- 实时计算:Kafka Streams:Kafka Streams连接器开发与使用.docx
- 数据仓库:BigQuery:BigQuery数据分区与索引优化.docx
文档评论(0)