重复数据删除技术现状及发展方向.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
重复数据删除技术现状及发展方向

重复数据删除技术的现状与发展方向 朱立谷 中国传媒大学计算机学院,北京100024 (email: lgzhu@cuc.edu.cn) 1.概述 重复数据删除(data de-duplication) 也称为智能压缩(intelligent compression) 或单 一实例存储(single-instance storage ),是一种可自动搜索重复数据,将相同的数据只保留唯 一的一个副本,并使用指向单一副本的指针替换掉其它重复副本,以达到消除数据冗余、降低存 储容量需求的存储技术。常见的重复数据删除有两种:文件复制消除可以识别两个文件名不 同但是内容完全相同的文件,或者不同目录下相同的文件,可以避免相同文件的多次存储; 数据块冗余消除比文件复制消除的存储效率更高,它可以在文件中搜索相同的数据块,将相 同的块保存一个唯一的副本。 重复数据删除是一种独特存储技术,分析师认为它可能是存储行业最重要的一项新兴技 术,将改写存储行业的经济规则:借助于重复数据删除技术,使得实际存档的数据呈几何级 别递减,用户的存档数据所占用的空间将会缩减为现在的5%,从而大幅削减存储成本。 2.重复数据删除的技术原理 重复数据删除利用文件之间和文件内的相同和相似性,处理的粒度可以文件、数据块、 字节甚至位,处理粒度越细,删除冗余数据越多,存储容量减少越大,但处理消耗的计算资 源更多。 2.1 文件相似性 为了理解文件相似性对重复数据删除效率的重要性,首先我们看看相似性与存储量之间 的关系。数据的相似性变化范围极大,压缩效率变化范围也很大,然而,文件相似性和文件 压缩量之间的关系是相同的。 使用不同版本的Linux 的源代码来评估文件相似性,对gzip 压缩(仅文件内压缩)与 delta 压缩(文件内+文件间压缩)进行比较,结果见图1:在8 万多个文件(1GB大小)中, 有相当多的文件具有很高的相似性,事实上,很多是相同的,gzip 压缩后文件体积减少到 原来的25%到30%,delta 压缩后文件体积减少到原来的4%。这表明利用文件相似性对文 件内和文件间压缩大有好处,对文件内和文件间的冗余数量进行删除实现高压缩是可能的, 即使包含压缩计算产生的索引数据,因为这些数据不足原始数据总大小的1%。 文 件 的 压 缩 比 ( 压 缩 后 比 压 缩 前 ) 文件的相似性(相似特征的个数) 图1. 文件相似性与压缩效率的关系(来源:美国加州大学的研究) 2.2 重复数据删除的算法 2.2.1 Hash 算法 Hash 一般翻译为散列,或音译为哈希,就是把任意长度的输入(称为预映射)通过Hash 算法变换成固定长度的输出,该输出就是 Hash (Hash)值。这种转换是一种压缩映射,Hash 值的空间通常远小于输入的空间。 Hash 算法的数学表述为: CA H C (content ) 其中H () --单向Hash 函数,content--任意长度字符串,CA--固定长度Hash 值。 c Hash 算法在信息安全领域中广泛应用,可满足如下关键特性:  第一是单向性(one-way),从预映射,能够简单迅速的得到Hash 值,而在计算上不 可能构造一个预映射,使其 Hash 结果等于某个特定的 Hash 值,即构造相应的 content H 1(CA) 不可行。 c  第二是抗冲突性(collision-resistant),即在统计上无法产生2 个Hash 值相同的 预 映 射 。 给 定 content , 计 算 上 无 法 找 到 content , 满 足 H (c o n t) e Hn t(c o n t)e n t ,此谓弱抗冲突性;计算上也难以寻找一对任意的

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档