深入理解数据压缩与重复数据删除.pdfVIP

下载本文档

1
0
约9.61千字
约 9页
2017-09-06 发布于浙江
举报
版权申诉

深入理解数据压缩与重复数据删除.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深入理解数据压缩与重复数据删除

深入理解数据压缩与重复数据删除文章地址：/liuaigui/article/details/6324133 [导读] 数据压缩与重复数据删除两种技术有何区别与联系呢？实际中又该如何正确应用呢？笔者之前对数据压缩原理和技术没有研究，因此做了点功课，查阅整理了相关资料，并与重复数据删除技术进行对比分析。面对数据的急剧膨胀，企业需要不断购置大量的存储设备来应对不断增长的存储需求。然而，单纯地提高存储容量，这似乎并不能从根本解决问题。首先，存储设备的采购预算越来越高，大多数企业难以承受如此巨大的开支。其次，随着数据中心的扩大，存储管理成本、占用空间、制冷能力、能耗等也都变得越来越严重，其中能耗尤为突出。再者，大量的异构物理存储资源大大增加了存储管理的复杂性，容易造成存储资源浪费和利用效率不高。因此，我们需要另辟蹊径来解决信息的急剧增长问题，堵住数据 “井喷”。高效存储理念正是为此而提出的，它旨在缓解存储系统的空间增长问题，缩减数据占用空间，简化存储管理，最大程度地利用已有资源，降低成本。目前业界公认的五项高效存储技术分别是数据压缩、重复数据删除、自动精简配置、自动分层存储和存储虚拟化。目前，数据压缩和重复数据删除是实现数据缩减的两种关键技术。简而言之，数据压缩技术通过对数据重新编码来降低冗余度，而重复数据删除技术侧重于删除重复的数据块，从而实现数据容量缩减的目的。 1][2] 数据压缩 [ 数据压缩的起源可以追溯到信息论之父香农 (Shannon)在 1947 年提出的香农编码。1952 年霍夫曼 (Huffman)提出了第一种实用性的编码算法实现了数据压缩，该算法至今仍在广泛使用。1977 年以色列数学家 Jacob Ziv 和 Abraham Lempel 提出了一种全新的数据压缩编码方式，Lempel-Ziv 系列算法(LZ77和 LZ78，以及若干变种)凭借其简单高效等优越特性，最终成为目前主要数据压缩算法的基础。LZ 系列算法属于无损数据压缩算法范畴，采用词曲编码技术实现，目前主要包括 LZ77、LZSS、LZ78 和 LZW 四种主流算法。可以归纳为两类：第一类词典法的想法是企图查找正在压缩的字符序列是否在前面的输入数据中出现过，如果是，则用指向早期出现过的字符串的 “指针”替代重复的字符串。这种编码思想如图 1 所示。这里的 “词典”是隐含的，指用以前处理过的数据。这类编码中的所有算法都是以 Abraham Lempel 和 Jakob Ziv 在 1977 年开发和发表的算法（称为 LZ77 算法）为基础。此算法的一个改进算法是由 Storer 和 Szymanski 在 1982 年开发的，称为 LZSS 算法。图 1 第一类词典法编码概念第二类算法的想法是企图从输入的数据中创建一个 “短语词典(dictionary of the phrases)”。编码数据过程中当遇到已经在词典中出现的 “短语”时，编码器就输出这个词典中的短语的 “索引号”，而不是短语本身。这个概念如图 2 所示。A.Lempel 和 J.Ziv 在 1978 年首次发表了介绍这种编码方法的文章，称为 LZ78。在他们的研究基础上，Terry A.Welch 在 1984 年发表对这种编码算法进行了改进的文章，并首先在高速硬盘控制器上应用了这种算法。因此后来把这种编码方法称为 LZW(Lempel-Ziv Walch)压缩编码。图 2 第二类词典法编码概念 Lempel-Ziv 系列算法的基本思路是用位置信息替代原始数据从而实现压缩，解压缩时则根据位置信息实现数据的还原，因此又被称作字典式编码。目前存储应用中压缩算法的工业标准 (ANSI、QIC、IETF、FRF、TIA/EIA)是 LZS(Lempel-Ziv-Stac)，由 Stac 公司提出并获得专利，当前该专利权的所有者是 Hifn, Inc.。数据压缩的应用可以显著降低待处理和存储的数据量，一般情况下可实现 2:1 ~ 3:1 的压缩比。 LZ77 算法[3] 1977 年，Jacob Ziv 和 Abraham Lempel 描述了一种基于滑动窗口缓存的技术，该缓存用于保存最近刚刚处理的文本（J. Ziv and A. Lempel, “A Universal Algorithm for Sequential Data Compressio