重复数据删除技术现状及发展方向.pdfVIP

下载本文档

18
0
约7.16千字
约 6页
2017-08-09 发布于浙江
举报
版权申诉

重复数据删除技术现状及发展方向.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

重复数据删除技术现状及发展方向

重复数据删除技术的现状与发展方向朱立谷中国传媒大学计算机学院，北京100024 (email: lgzhu@cuc.edu.cn) 1.概述重复数据删除(data de-duplication) 也称为智能压缩(intelligent compression) 或单一实例存储(single-instance storage )，是一种可自动搜索重复数据，将相同的数据只保留唯一的一个副本，并使用指向单一副本的指针替换掉其它重复副本，以达到消除数据冗余、降低存储容量需求的存储技术。常见的重复数据删除有两种：文件复制消除可以识别两个文件名不同但是内容完全相同的文件，或者不同目录下相同的文件，可以避免相同文件的多次存储；数据块冗余消除比文件复制消除的存储效率更高，它可以在文件中搜索相同的数据块，将相同的块保存一个唯一的副本。重复数据删除是一种独特存储技术，分析师认为它可能是存储行业最重要的一项新兴技术，将改写存储行业的经济规则：借助于重复数据删除技术，使得实际存档的数据呈几何级别递减，用户的存档数据所占用的空间将会缩减为现在的5%，从而大幅削减存储成本。 2.重复数据删除的技术原理重复数据删除利用文件之间和文件内的相同和相似性，处理的粒度可以文件、数据块、字节甚至位，处理粒度越细，删除冗余数据越多，存储容量减少越大，但处理消耗的计算资源更多。 2.1 文件相似性为了理解文件相似性对重复数据删除效率的重要性，首先我们看看相似性与存储量之间的关系。数据的相似性变化范围极大，压缩效率变化范围也很大，然而，文件相似性和文件压缩量之间的关系是相同的。使用不同版本的Linux 的源代码来评估文件相似性，对gzip 压缩（仅文件内压缩）与 delta 压缩（文件内+文件间压缩）进行比较，结果见图1：在8 万多个文件(1GB大小)中，有相当多的文件具有很高的相似性，事实上，很多是相同的，gzip 压缩后文件体积减少到原来的25％到30％，delta 压缩后文件体积减少到原来的4%。这表明利用文件相似性对文件内和文件间压缩大有好处，对文件内和文件间的冗余数量进行删除实现高压缩是可能的，即使包含压缩计算产生的索引数据，因为这些数据不足原始数据总大小的1％。文件的压缩比（压缩后比压缩前）文件的相似性（相似特征的个数）图1. 文件相似性与压缩效率的关系(来源：美国加州大学的研究) 2.2 重复数据删除的算法 2.2.1 Hash 算法 Hash 一般翻译为散列，或音译为哈希，就是把任意长度的输入（称为预映射）通过Hash 算法变换成固定长度的输出，该输出就是 Hash (Hash)值。这种转换是一种压缩映射，Hash 值的空间通常远小于输入的空间。 Hash 算法的数学表述为： CA H C (content ) 其中H () --单向Hash 函数，content--任意长度字符串，CA--固定长度Hash 值。 c Hash 算法在信息安全领域中广泛应用，可满足如下关键特性：  第一是单向性(one-way)，从预映射，能够简单迅速的得到Hash 值，而在计算上不可能构造一个预映射，使其 Hash 结果等于某个特定的 Hash 值，即构造相应的 content H 1(CA) 不可行。 c  第二是抗冲突性(collision-resistant)，即在统计上无法产生2 个Hash 值相同的预映射。给定 content ，计算上无法找到 content ，满足 H (c o n t) e Hn t(c o n t)e n t ，此谓弱抗冲突性；计算上也难以寻找一对任意的