重复数据检测在多版本数据备份中应用.docVIP

重复数据检测在多版本数据备份中应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
重复数据检测在多版本数据备份中应用

重复数据检测在多版本数据备份中应用    (1.中国科学院 计算技术研究所 研究生院, 北京 100080;2.联想北京研究院 互联网计算研究室, 北京 100085)   摘 要:分析了当前主要的重复数据检测技术,针对多版本数据的备份/还原过程提出了重复数据检测三级模型,有效地解决了检测粒度和检测开销之间的矛盾,从而减少了多版本数据备份/还原过程中的数据传输量,节省了备份空间。   关键词:数据备份;重复数据检测;Rsync算法   中图分类号:TP391 文献标志码:A    文章编号:1001?B3695(2009)01?B0206?B03      Duplicated data detection in multiversion backup   CUI Xinghua1,DU Xiaoli1,2,ZHAO Xiaorui2   (1.Graduate School, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China;2.Internet Computing Lab, Lenovo Corporate Research, Beijing 100085, China)   Abstract:This paper analyzed current technology of duplicated data detection, and designed a threetier detection model for the process of backup restore which achieved a balance between the accuracy and the cost of detection. It can reduce the data transmission and save the backup storage space.   Key words:data backup; duplicated data detection;Rsync   当前,各种信息种类繁多,信息量巨大,企业和个人用户数据存储量增长迅速,而这些数据信息中有很多都是重复冗余数据。无论是在用户的多个版本文件之间还是在企业的数据服务器上,大量数据重复存在,会直接影响数据查询和管理的效率。当对这些数据进行远程备份或还原时,如果只是简单地对数据进行备份和还原,一方面会对存储空间造成极大的浪费;另一方面也会增加备份/还原过程中的数据传输负载。??   1 重复数据处理技术??   11 重复数据检测??    重复数据检测当前主要应用于数据备份中,将相同的数据只保留惟一一个副本,并使用指向单一副本的指针替换其他重复副本,从而消除数据冗余,更加有效地对重复数据进行重用。目前的重复数据检测技术主要有基于hash和基于内容两种方法。??   重复数据检测可以:a)提供更大的备份容量。备份数据中包含太多的重复数据,尤其对于多版本备份系统,重复数据占整个备份容量很大的部分。b)减少了数据备份/还原时的数据传输量,只需要将非重复数据进行同步。c)提高数据恢复水平,方便数据恢复。不同于单纯的增量备份,重复数据检测技术能够对系统中的数据备份进行有效的管理,当数据发生意外需要恢复时,可以快速有效地进行数据恢复。??   重复数据检测的对象可以是文件级、块级或字节级。处理的对象粒度越小,系统越复杂;检测数据的开销越大,冗余程度也越小。常用的重复数据检测粒度有两种,即文件级和数据块级。其中,文件级重复可以识别两个文件名不同而内容完全相同的文件,或者不同目录下相同的文件,从而避免相同文件的多次存储;数据块级重复可以在文件中搜索相同的数据块,将相同的块保存一个惟一的副本。??   12 重复数据删除与增量备份,数据压缩??   重复数据删除就是通过重复数据检测,删除冗余文件、数据块的过程,使得只有独有的数据存储在系统中。重复数据删除通过有效减少存储系统中的冗余数据占有,解决了存储空间的利用效率问题。??    重复数据删除和增量备份是完全不同的概念。增量备份是指只备份变化的文件;重复数据删除则是指只备份不重复的数据。没有变化的数据文件中也会存在大量的重复数据。重复数据删除也不同于普通的数据压缩技术所采用的通过压缩算法消除文件内冗余数据的方法,而是通过算法消除分布在存储系统内的相同文件或数据块。重复数据删除技术的关键是只保留惟一的数据实例,在减少数据存储量方面更加有效。??   2 现有主要方案分析??   21 基于内容检测??   基于内容识别的重复检测技术的基本原理是对记录的数据格

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档