DoSTOR专家观点数据归档中的缩减技术及其应用.docVIP

下载本文档

1
0
约3.03千字
约 4页
2017-08-21 发布于重庆
举报
版权申诉

DoSTOR专家观点数据归档中的缩减技术及其应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DoSTOR专家观点数据归档中的缩减技术及其应用.doc

DoSTOR专家观点数据归档中的缩减技术及其应用存储在线 08年06月04日 09:45 【原创】作者：汉帆（杭州）信息技术有限公司现场应用工程师杨洋责任编辑：DOIT 导读：目前能够实现数据缩减的技术主要有两种：数据压缩（Data Compression）和重复数据删除（Data De-duplication）。简单来说，数据压缩技术通过对数据重新编码来降低其冗余度（redundancy）；而重复数据删除技术则着眼于删除重复出现的数据块。关键词： Data Compression Hifn 数据归档数据压缩 Data De-duplication 重复数据删除汉帆 DoSTOR专家观点：随着信息化技术的发展和深入，企业对数据的依赖不断增强。与此同时，急速增长的数据量也给管理和使用都带来了全新的挑战。IDC最新报告显示，2007年新增数据量（281 ExaByte）已经超过所有可用存储介质总容量（264 ExaByte）约6%，并预计2011年数据总量将达到2006年的10倍。面对数据的爆炸性增长，仅仅提高系统运算能力和增加存储介质容量已经不能满足高速发展的各种数据应用，对高效数据缩减技术的需求已经逐步显现出来，并且越来越迫切。目前能够实现数据缩减的技术主要有两种：数据压缩（Data Compression）和重复数据删除（Data De-duplication）。简单来说，数据压缩技术通过对数据重新编码来降低其冗余度（redundancy）；而重复数据删除技术则着眼于删除重复出现的数据块。数据压缩数据压缩的起源可以追溯到信息论之父香农（Shannon）在1947年提出的香农编码。1952年霍夫曼(Huffman)提出了第一种实用性的编码算法实现了数据压缩，该算法至今仍在广泛使用。1977年以色列数学家Jacob Ziv 和Abraham Lempel提出了一种全新的数据压缩编码方式，Lempel-Ziv系列算法（LZ77和LZ78，以及若干变种）凭借其简单高效等优越特性，最终成为目前主要数据压缩算法的基础。 Lempel-Ziv系列算法的基本思路是用位置信息替代原始数据从而实现压缩，解压缩时则根据位置信息实现数据的还原，因此又被称作字典式编码。目前存储应用中压缩算法的工业标准（ANSI、QIC、IETF、FRF、TIA/EIA）是LZS（Lempel-Ziv-Stac），由Stac公司提出并获得专利，当前该专利权的所有者是Hifn, Inc. LZS算法基于LZ77（如图一）实现，主要由两部分构成，滑窗（Sliding Window）和自适应编码（Adaptive Coding）。压缩处理时，在滑窗中查找与待处理数据相同的块，并用该块在滑窗中的偏移值及块长度替代待处理数据，从而实现压缩编码。如果滑窗中没有与待处理数据块相同的字段，或偏移值及长度数据超过被替代数据块的长度，则不进行替代处理。LZS算法的实现非常简洁，处理比较简单，能够适应各种高速应用。 ? 图一? LZ77算法示意图数据压缩的应用可以显著降低待处理和存储的数据量，一般情况下可实现2:1 ~ 3:1的压缩比。重复数据删除在备份、归档等实际的存储实践中，人们发现有大量的重复数据块存在，既占用了传输带宽又消耗了相当多的存储资源：有些新文件只是在原有文件上作了部分改动，还有某些文件存在着多份拷贝，如果对所有相同的数据块都只保留一份实例，实际存储的数据量将大大减少--这就是重复数据删除技术的基础。这一做法最早由普林斯顿大学李凯教授（DataDomain的三位创始人之一）提出，称之为全局压缩（Global Compression），并作为容量优化存储（Capacity Optimized Storage， COS）推广到商业应用。目前，除了DataDomain等专门厂商外，各主要存储厂商如EMC、IBM、Symantec、FalconStor等等也都通过收购或研发等途径拥有了各自的重复数据删除技术，有的还并冠以别名，如单示例存储（Single Instance Repository，SIR）等。重复数据删除的实现由三个基本操作组成，如图二。首先，待处理数据（文件）被分割成固定或可变大小的数据块，同时生成一张结构图显示这些数据块怎样组成完整的原数据（文件）；然后计算各数据块的指纹（标识），并根据指纹确认该数据块是否与其它数据块相同；最后，丢弃重复出现的数据块，并将结构图作为原始数据（文件）存储。 ? 图二? 重复数据删除原理重复数据删除技术的关键在于数据块指纹的生成和鉴别。数据块指纹是鉴别数据块是否重复的依据，如果不同数据块的指纹相同，就会造成内容丢失，产生不可恢复的严重后果。在目前的实际应用中，一般都选择MD5或SHA-1等标准杂凑（