网站大量收购独家精品文档,联系QQ:2885784924

技术热点分析:重复数据删除.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术热点分析:重复数据删除.doc

  技术热点分析:重复数据删除   备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,重复删除技术便顺理成章地成了人们关注的焦点。采用重复删除技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。   就在几年前,D2D备份似乎还好得令人难以置信。受价格低廉的 ATA(以及稍后的SATA)硬盘的影响,很多人会选择用D2D取代虚拟磁带库或做备份到磁盘的工作,使备份速度变得更快,不必再担心在磁带驱动器和磁带库上产生的机械故障,并且使文件恢复变得更加轻松。      但是今天,我们的磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。问题是在我们的备份设备中有太多的重复数据。现在终于有了解决这个问题的办法,善于抓住机会赚钱的厂商们声称他们的新一代删除重复数据产品可以按20:1,甚至300:1的比例缩减我们需要存储的数据量。果真如此吗?让我们仔细看看。   重复数据删除技术支持在已有的磁盘设备上存储更多的备份数据。因此采用重复数据删除技术可以增加您保存备份数据的时间,减少数据中心的消耗,降低成本。如果您删除重复数据后再通过D-5 等类似的算法将这些进行备份的数据流断成块并且为每个数据块生成一个散列(hash)。如果新数据块的散列(hash)与备份设备上散列索引中的一个散列匹配,表明该数据已经被备份,设备只更新它的表,以说明在这个新位置上也存在该数据。   基于散列(hash)的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被备份,这种基于散列(hash)的方法会在内存中拥有散列(hash)索引。当被备份的数据块数量增加时,该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量,性能会急速下降,同时磁盘搜索会比内存搜索更慢。因此,目前大部分基于散列(hash)的系统都是独立的,可以保持存储数据所需的内存量与磁盘空间量的平衡,这样,散列(hash)表就永远不会变得太大。   第二种方法是基于内容识别的重复删除,这种方法主要是识别记录的数据格式。它采用内嵌在备份数据中的文件系统的元数据识别文件;然后与其数据存储库中的其它版本进行逐字节地比较,找到该版本与第一个已存储的版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列(hash)冲突(请参阅下面的不要惧怕冲突),但是需要使用支持的备份应用设备以便设备可以提取元数据。   ExaGrid Systems的InfiniteFiler就是一个基于内容识别的重复删除设备,当备份数据时,它采用mVault Galaxy 和Symantec Backup Exec等通用的备份应用技术从源系统中识别文件。完成备份后,它找出已经被多次备份的文件,生成增量文件(deltas)。多个 InfiniteFilers合成一个网格,支持高达30 TB的备份数据。采用重复删 123下一页 ....,。除方法的ExaGrid在存储一个1GB的 .PST文件类的新信息时表现优异,但它不能为多个不同的文件消除重复的数据,例如在四个.PST文件具有相同的附件的情况下。   Sepaton 的用于它的VTL 的DeltaStor也采用内容识别方法,但是它将新文件既与相同位置上的以前的文件版本进行比较,同时也与从其它位置上备份的文件版本进行比较,因此它能够消除所有位置上的重复数据。   第三种方法是Diligent Technologies用于其ProtecTier VTL的技术,它像基于散列(hash)的产品那样将数据分成块,并且采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。   硬件或软件   各大厂商除了采用的方法不同外,他们物理架构的备份目标也不同。Data Domain、ExaGrid 和昆腾是包含磁盘阵列的monolithic appliances(单块集成电路设备)。 Data Domain和昆腾有NAS或VTL接口,而ExaGrid就是一个NAS设备。Diligent和FalconStor销售的是软件产品,运行在Intel 或 Opteron服务器上。   尽管带有VTL接口的备份设备看起来更高级并且更易于与现存的基于磁带的备份环境集成,但是采用NAS 接口,会为您的备份应用提供更多的控制。当备份文件过了保存期时,一些像赛门铁克的NetBackup之类的备份产品能够从它们的磁盘存储库中删除这些过了保存期的备份文件。当重复删除的NAS设备发现这个删除行为时,它

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档