netapp-真伪之辩-评估重复数据删除解决方案.doc

netapp-真伪之辩-评估重复数据删除解决方案.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
netapp-真伪之辩-评估重复数据删除解决方案

NETAPP 白皮书 Larry Freeman, NetApp, Inc. 2007 年 9 月 | WP-7028-0907 重复数据删除的真伪之辨 3 什么是重复数据删除? 3 重复数据删除工作原理 3 重复数据删除设计的考虑因素 4 哈希法 4 哈希法利弊 5 索引法 5 索引法利弊 6 选择内嵌式还是后处理式 7 内嵌式与后处理式利弊 7 源位置或目标位置的重复数据删除 8 源位置及目标位置法利弊 8 重复数据删除的空间节约 8 空间节约的真谛 10 总结 10 重复数据删除的 毫无疑问,重复数据删除是数据存储界今年最热门的话题之一。重复数据删除的基本原理很简单:消除重复数据,减少备份及其它数据复制活动期间所需的存储容量。,许多供应商提供各种各样的重复数据删除方法,独特的优点隐藏着许多,让用户受到蒙蔽。用户在考虑各种重复数据删除产品时,不会重大的基本设计差别。 本白皮书将着重介绍重复数据删除的重要设计环节,在重复数据删除解决方案时能够做出明智选择。 什么是重复数据删除? 重复数据删除即删除重复数据的过程。一术语是多年以前由数据库管理员提出的,用来描述在合并两个数据库后删除重复数据库记录的过程。 在磁盘存储环境中,重复数据删除是指搜索重复数据对象(如数据块、数据束或文件)并删除这些重复数据的任何算法。当检测到重复对象时,其参考指针将被修改。该对象仍然可以定位和搜索,但它与其它相同的对象共享一个物理位置。此类数据共享是所有类型的重复数据删除的基础。 重复数据删除工作 无论操作系统、应用程序或文件系统类型如何,所有数据对象都是通过数据参考指针写入到存储系统中,没有参考指针将无法引用或检索数据。在传统(非重复数据删除)的文件系统中,数据对象不论其相似性一律存储在同一个文件系统中。在图 1 中,文件系统内存储了五个相同的对象,每个对象有着不同的数据指针。尽管所有五个数据对象都相同,但每个对象都是作为独立的实例存储,每个对象都占用物理磁盘空间。 重复数据删除文件系统引入了两个重要的新概念: 维护一个所有数据对象的目录。此目录包含所有数据对象的记录,它利用哈希来识别每个对象的独特内容。本章后面的重复数据删除设计的考虑因素将详细讨论哈希法。 文件系统能够支持许多数据指针引用相同的物理数据对象。 编目数据对象、比较对象和重定向参考指针重复数据删除算法的基础。如图 2 所示,用单个主对象来引用多个相同对象,就可以将重复对象占用的空间归还给存储系统。 重复数据删除设计的考虑因素 由于所有重复数据删除供应商都必须保留某种形式的目录,且必须支持某种形式的数据块引用,因此也就存在着五花八门的实施(它们都有着细微的差别,以便其申请专利)。以下部分阐述供应商在设计重复数据删除时所使用的方法。 哈希法 重复数据删除的出发点是比较两个数据对象。在新对象写入数据卷时,扫描整个数据卷来查找重复对象是不切实际的,同时也很困难。正由于此,重复数据删除供应商为每个新对象创建了小哈希值,并将这些值存储在目录中。 哈希值又称为数字指纹或数字签名,它是从一个较长的数据串生成的较小编号。哈希值远小于数据对象本身,它是由一种数学公式生成的,两个不相同的数据对象不太可能(尽管不是不可能)产生相同的哈希值。 哈希值可以像奇偶校验计算一样简单,也可以像 SHA-1 或 MD-5 加密哈希一样复杂。在任何情况下,一旦创建哈希值,就很容易进行比较,从而就可以识别重复数据删除的候选对象。 如果发现匹配的哈希值,则有两种方法来处理这些候选对象。首先,您可以假定哈希值相同始终表示数据对象相同,然后直接进入重复数据删除阶段。或者,作为一种备用方法,您可以添加辅助操作来扫描每个数据对象,验证数据对象是否确实相同,然后再执行重复数据删除。 哈希 了解供应商的哈希算法是评估重复数据删除的重要标准。如果供应商单纯依靠哈希匹配来确定两个数据对象是否需要重复数据删除,那么您就接受了可能发生的误判匹配,这可能会损坏数据。 如果发生了数据损坏,不管其损坏程度如何,都是不能接受的,必须确认供应商已经采取了相应措施,在完成哈希比较之后执行了辅助性的数据对象验证。或者,如果您愿意接受可能发生的误判哈希匹配,且优先考虑重复数据删除的速度,则受信任哈希设计或许可以满足您的需要。 索引识别出重复对象(并执行可选验证)后,就该执行重复数据删除了。您可能会发现,各供应商会采用各种不同的方法来修改数据指针结构。不过,所有形式的数据指针索引都可以归为两大类: :哈希值目录用于识别重复数据删除的候选对象。某个系统进程将识别重复对象,数据指针将被相应地修改。目录重复数据删除的优

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档