信息存储系统中重复数据删除技术的分析-analysis of deduplication technology in information storage system.docx

信息存储系统中重复数据删除技术的分析-analysis of deduplication technology in information storage system.docx

  1. 1、本文档共125页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息存储系统中重复数据删除技术的分析-analysis of deduplication technology in information storage system

独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和 集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人 承担。学位论文作者签名: 日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文属于保密□,在年解密后适用本授权书。 不保密□。(请在以上方框内打―√‖)学位论文作者签名:指导教师签名:日期:年月日日期:年月日摘 要重复数据删除技术是网络存储系统中一种数据无损压缩的解决方案,可以有效 地抑制数据存储开销过快的增长,缩减存储系统的构建以及运营管理的成本。在数 据信息量迅猛增长的背景下,重复数据删除技术得到了学术界和产业界广泛的关 注。但重复数据删除领域仍然存在诸多技术问题,如提高数据压缩率,减少处理时 间,优化数据可靠性等方面。针对上述存在的问题,论文从重复数据删除处理方法, 重复数据删除处理中的数据可靠性问题以及存储后台的数据分布策略三个方面展 开了深入的研究。通过理论分析模型以及现实数据集的实测分析,对影响重复数据删除处理效果 的因素展开了研究。目标数据的重复特征对重复数据删除处理的效果具有较大影 响,因此,提出了一种基于重复特征的重复数据删除策略,对数据压缩率以及处理 时间开销进行优化。该策略主要包括基于语义的数据分组策略和渐进式数据分割粒 度判定法。基于语义的数据分组策略根据语义信息对数据的重复特征以及相似性进 行判别并完成对目标数据的分组操作。渐进式数据分割粒度判定法是以数据分组为 操作单位,根据重复特征对数据分割策略进行合适地设置。实验测试表明基于重复 特征的重复数据删除策略相对于其它重复数据删除解决方案,在数据压缩率以及处 理时间开销上获得了更加优异的综合性能。针对重复数据删除处理中数据可靠性的问题提出了一种最优冗余度计算模型, 根据数据的引用热度提高目标数据的可靠性。为了将该理论模型应用到现实存储系 统中,采用抽取数据单元样本空间计算经验数值的方法对理论模型进行了可行性优 化,并提出一种基于引用热度的数据冗余策略。该数据冗余策略根据数据单元的相 关属性(数据单元的大小以及引用热度)配置最优的冗余度,确保目标数据集使用 最小的存储开销获得最优的数据可靠性。仿真实验验证了基于引用热度的数据冗余 策略的可行性和有效性。针对当前数据分布策略中灵活性不足的问题,提出了一种基于容量感知的数据 分布策略,以改善在物理节点间存储资源不相等的情况下存储负载的均衡程度。该策略提供了两种情况下的数据分布策略解决方案。在不考虑数据冗余度情况下,提出了一种基于容量感知的数据分布式策略,该策略基于一致性哈希数据分布算法, 引入了虚拟化的设计思路,采用虚拟节点分配法进行存储资源的分配;并采用基于 节点容量感知的负载均衡方法对物理存储节点之间的数据负载分布进行优化调整。 在考虑数据冗余度情况下,提出了一种支持多冗余度的数据分布策略,为数据冗余 策略提供灵活的平台支持,并对存储负载均衡程度进行优化。仿真测试结果表明两 种数据分布策略在各自应用背景下均有助于改善存储数据负载的均衡水平。关键词:网络存储,重复数据删除,数据冗余,数据可靠性,数据分布AbstractData deduplication technology is a lossless data compression method in network storage systems, which can limit the excessive growth of data storage overhead and reduce the cost of system construction and operation. As the amount of digital data growing explosively, the data de-duplication technology has attracted a great interest in both academia and industry. However, there are still many technical issues in this research area, such as improving data compression rate, pr

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档