常用压缩算法.docVIP

下载本文档

11
0
约2.58千字
约 4页
2017-08-13 发布于河南
举报
版权申诉

常用压缩算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

常用数据无损压缩算法分析　　引言　　当今，各种信息系统的数据量越来越大，如何更快、更多、更好地传输与存储数据成为数据信息处理的首要问题，而数据压缩技术则是解决这一问题的重要方法。事实上，从压缩软件WINRAR到熟知的MP3，数据压缩技术早已应用于各个领域。　　2 数据压缩技术概述　　本质上压缩数据是因为数据自身具有冗余性。数据压缩是利用各种算法将数据冗余压缩到最小，并尽可能地减少失真，从而提高传输效率和节约存储空间。　　数据压缩技术一般分为有损压缩和无损压缩。无损压缩是指重构压缩数据(还原，解压缩)，而重构数据与原来数据完全相同。该方法用于那些要求重构信号与原始信号完全一致的场合，如文本数据、程序和特殊应用场合的图像数据(如指纹图像、医学图像等)的压缩。这类算法压缩率较低，一般为1／2~1／5。典型的无损压缩算法有：Shanno-Fano编码、Huffman(哈夫曼)编码、算术编码、游程编码、LZW编码等。而有损压缩是重构使用压缩后的数据，其重构数据与原来数据有所不同，但不影响原始资料表达信息，而压缩率则要大得多。有损压缩广泛应用于语音、图像和视频的数据压缩。常用的有损压缩算法有PCM(脉冲编码调制)、预测编码、变换编码(离散余弦变换、小波变换等)、插值和外推(空域亚采样、时域亚采样、自适应)等。新一代的数据压缩算法大多采用有损压缩，例如矢量量化、子带编码、基于模型的压缩、分形压缩和小波压缩等。　　3 常用数据无损压缩算法　　3．1 游程编码　　这种数据压缩思想：如果数据项d在输入流中连续出现n次，则以单个字符对nd来替换连续出现n次的数据项，这n个连续出现的数据项叫游程n，这种数据压缩方法称游程编码(RLE)，其实现流程如图1所示。RLE算法具有实现简单，压缩还原速度快等优点，只需扫描一次原始数据即可完成数据压缩。其缺点是呆板，适应性差，不同的文件格式的压缩率波动大，平均压缩率低。实践表明，RLE能够压缩复杂度不高的原始点阵图像。　　3．2 基于字典编码技术的LZW算法　　LZW算法是LZ78的流行变形，由Terrv Welch在1984年开发。LZW算法首先将字母表中的所有字符初始化到字典，常用8位字符，在输入任何数据前优先占用字典的前256项(0～255)。LZW编码的原理：编码器逐个输入字符并累积一个字符串I。每输入一个字符则串接在I后面，然后在字典中查找I；只要找到I，该过程继续执行搜索。直到在某一点，添加下一个字符x导致搜索失败，这意味着字符串I在字典中，而Ix(字符x串接在I后)却不在。此时编码器输出指向字符串，的字典指针；并在下一个可用的字典词条中存储字符串Ix；把字符串I预置为x。其压缩流程如图2所示。　　因为字典的前256项被占用，因此字典指针必须高于8位。由于LZW算法的字典中的字符串每次仅增加一个字符。因此，要获得长字符串则需较长时间，这样才能较好地压缩．IZW编码能够适应输入数据。　　LZW算法与其他算法相比具有自适应的特点，即可以根据压缩内容不同来建立不同字典，以减少冗余度，提高压缩比；并且解压时这个字典无需与压缩代码同时传送，而是在解压过程中逐步建立与压缩时完全相同的字典，从而完整、准确地恢复被压缩内容。因此，LZW算法是一种解码速度与压缩性能较好的压缩算法。　　实现LZW算法需要考虑以下几点：　　(1)字典建立(数据结构与字典大小) LZW字典的数据结构是一棵多叉树。字典越大，代替的子串越多。但应用中字典容量则受一定限制，要权衡利弊选择合适的字典。　　(2)字典维护与更新字典指针由哈希函数生成。正确选择哈希函数非常重要，这将影响执行效率。正确的哈希函数所产生的重复值极少，这样检索字符串所需比较次数也较少，从而可有效提高代码的执行效率。　　当字典满时，字典的维护和更新对压缩率也是至关重要的。可重新从初始状态建立字典；也可监测压缩率，当压缩率变坏时全部或部分清除字典。　　(3)压缩数据代码长度压缩时，输入数据一般是8位。但压缩后的输出是转化的字符串代码，其中0～255为8位码，256为9位码，25l～512为10位码，l 024为11位码。解压则相反，需要位操作。因此，输出可以从9位码开始，随着字典内容的增加，码字也逐渐增加。这样可提高执行效率，但在译码时需考虑不等长码的识别，可通过设置标志位来解决。　　3．3 基于哈夫曼编码原理的压缩算法　　哈夫曼算法的过程为：统计原始数据中各字符出现的频率；所有字符按频率降序排列；建立哈夫曼树：将哈夫曼树存入结果数据；重新编码原始数据到结果数据。哈夫曼算法实现流程如图3所示。　　哈夫曼算法的实质是针对统计结果对字符本身重新编码，而不是对重复字符或重复子串编码。实用中．符号的出现频率不能预知，需要统计和编码两次处理，所以