存储数据归档中缩减技术及其应用.docxVIP

下载本文档

19
0
约2.93千字
约 5页
2021-12-05 发布于天津
举报
版权申诉

存储数据归档中缩减技术及其应用.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 1 PAGE 1 存储数据归档中缩减技术及其应用目前能够实现数据缩减的技术主要有两种：数据压缩（DataCompression）和重复数据删除（DataDe-duplication）。简洁来说，数据压缩技术通过对数据重新编码来降低其冗余度（redundancy）；而重复数据删除技术则着眼于删除重复出现的数据块。随着信息化技术的发展和深入，企业对数据的依靠不断增加。与此同时，急速增长的数据量也给管理和使用都带来了全新的挑战。IDC最新报告显示，2007年新增数据量（281ExaByte）已经超过全部可用存储介质总容量（264ExaByte）约6%，并估计2011年数据总量将达到2006年的10倍。面对数据的爆炸性增长，仅仅提高系统运算能力和增加存储介质容量已经不能满意高速发展的各种数据应用，对高效数据缩减技术的需求已经逐步显现出来，并且越来越迫切。目前能够实现数据缩减的技术主要有两种：数据压缩（DataCompression）和重复数据删除（DataDe-duplication）。简洁来说，数据压缩技术通过对数据重新编码来降低其冗余度（redundancy）；而重复数据删除技术则着眼于删除重复出现的数据块。数据压缩数据压缩的起源可以追溯到信息论之父香农（Shannon）在1947年提出的香农编码。1952年霍夫曼(Huffman)提出了第一种实用性的编码算法实现了数据压缩，该算法至今仍在广泛使用。1977年以色列数学家JacobZiv和AbrahamLempel提出了一种全新的数据压缩编码方式，Lempel-Ziv系列算法（LZ77和LZ78，以及若干变种）凭借其简洁高效等优越特性，最终成为目前主要数据压缩算法的基础。 Lempel-Ziv系列算法的基本思路是用位置信息替代原始数据从而实现压缩，解压缩时则依据位置信息实现数据的还原，因此又被称作字典式编码。目前存储应用中压缩算法的工业标准（ANSI、QIC、IETF、FRF、TIA/EIA）是LZS（Lempel-Ziv-Stac），由Stac公司提出并获得专利，当前该专利权的全部者是Hifn,Inc. LZS算法基于LZ77实现，主要由两部分构成，滑窗（SlidingWindow）和自适应编码（AdaptiveCoding）。压缩处理时，在滑窗中查找与待处理数据相同的块，并用该块在滑窗中的偏移值及块长度替代待处理数据，从而实现压缩编码。假如滑窗中没有与待处理数据块相同的字段，或偏移值及长度数据超过被替代数据块的长度，则不进行替代处理。LZS算法的实现特别简洁，处理比较简洁，能够适应各种高速应用。数据压缩的应用可以显著降低待处理和存储的数据量，一般状况下可实现2:1~3:1的压缩比。重复数据删除在备份、归档等实际的存储实践中，人们发觉有大量的重复数据块存在，既占用了传输带宽又消耗了相当多的存储资源：有些新文件只是在原有文件上作了部分改动，还有某些文件存在着多份拷贝，假如对全部相同的数据块都只保留一份实例，实际存储的数据量将大大削减--这就是重复数据删除技术的基础。这一做法最早由普林斯顿大学李凯教授（DataDomain的三位创始人之一）提出，称之为全局压缩（GlobalCompression），并作为容量优化存储（CapacityOptimizedStorage，COS）推广到商业应用。目前，除了DataDomain等特地厂商外，各主要存储厂商如EMC、IBM、Symantec、FalconStor等等也都通过收购或研发等途径拥有了各自的重复数据删除技术，有的还并冠以别名，如单示例存储（SingleInstanceRepository，SIR）等。重复数据删除的实现由三个基本操作组成。首先，待处理数据（文件）被分割成固定或可变大小的数据块，同时生成一张结构图显示这些数据块怎样组成完整的原数据（文件）；然后计算各数据块的指纹（标识），并依据指纹确认该数据块是否与其它数据块相同；最终，丢弃重复出现的数据块，并将结构图作为原始数据（文件）存储。重复数据删除技术的关键在于数据块指纹的生成和鉴别。数据块指纹是鉴别数据块是否重复的依据，假如不同数据块的指纹相同，就会造成内容丢失，产生不可恢复的严重后果。在目前的实际应用中，一般都选择MD5或SHA-1等标准杂凑（hash）算法生成的数据块的摘要（digest）作为指纹，以区分不同数据块间存在的差异，从而保证不同数据块之间不会发生冲突。但是，MD5，SHA-1等算法的计算过程特别复杂，纯软件计算很难满意存储应用的性能需求，指纹的计算往往成为重复数据删除应用的性能瓶颈。