信息论中关于数据压缩问题的简单分析.doc

信息论中关于数据压缩问题的简单分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息论中关于数据压缩问题的简单分析 摘 要: 随着信息技术的发展, 数据信息量越来越大. 为了存储这些数据信息, 我们需要更多的内存空间, 而且对这些信息进行处理也要花费更多的时间. 为了节省空间, 提高处理效率, 对数据进行压缩显得越来越重要. 本文中介绍了一些具有代表性的数据压缩方法, 并对其应用进行了比较分析.With the development of information technology, the amount of information increasing more and more . In order to store these data, we need more memory space, and processing of such information should spend more time . In order to save space, improve processing efficiency , to compress the data become increasingly important. This article describes some typical data compression method, and apply a comparative analysis. 关键字:数据压缩 赫夫曼编码码 费诺编码 香农编码 Keyworlds : Data Compression, Huffman Coding ,Fano Coding , Shannon Coding 一.数据压缩概述 1.1. 数据压缩的概念 数据压缩是对给定的数据进行压缩处理,消除一定的冗余度,节省了存储空间和处理时间,提高性能。 1.2 数据压缩的发展 严格意义上的数据压缩起源于人们对概率的认识。当我们对文字信息进行编码时,如果为出现概率较高的字母赋予较短的编码,为出现概率较低的字母赋予较长的编码,总的编码长度就能缩短不少。远在计算机出现之前,著名的莫尔斯电报码就已经成功地实践了这一准则。莫尔斯码是关于英文字母表的一个相当有效的编码方案,使用四个字符的字母表:点,划,字母间隔和单词间隔。使用短序列表示频繁出现的字母(例如:用单个点表示E),而用长序列表示不经常出现的字母(例如:Q表示为“划,划,点,划”)。从而达到数据压缩的目的。 1.3. 数据压缩的起源 信息论之父香农第一次用数学语言阐明了概率与信息冗余度的关系。在1948 年发表的论文《通信的数学理论》中, 香农指出, 任何信息都存在冗余, 冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。香农借鉴了热力学的概念, 把信息中排除了冗余后的平均信息量称为信息熵, 并给出了计算信息熵的数学表达式 。这篇伟大的论文后来被誉为信息论的开山之作, 信息熵也奠定了所有数据压缩算法的理论基础。从本质上讲, 数据压缩的目的就是要消除信息中的冗余, 而信息熵及相关的定理恰恰用数学手段精确地描述了信息冗余的程度。利用信息熵公式,人们可以计算出信息编码的极限, 即在一定的概率模型下, 无损压缩的编码长度不可能小于信息熵公式给出的结果。 1.4 数据压缩的分类 数据压缩可分成两种类型, 一种叫做无损压缩, 另一种叫做有损压缩. 无损压缩是指使用压缩后的数据进行分析,效果与压缩前相同。一些常用的无损压缩方法有赫弗曼(Huffman)编码和LAW(Lempel-Ziv Welch)压缩方法。 有损压缩是指在允许一定的精度损失的情况下,压缩掉数据中的一些无关紧要的数据,不影响结果。对压缩后的数据进行分析,虽然与原来的数据有所不同,但是不影响对数据分析的结果,一些常用的算法有主成分分析法(Principle Components Analysis).小波变换(Discrete Wavelet Transform). 二.信源编码 信源编码主要是利用信源的统计特性,解决信源的相关性,去掉信源冗余信息,从而达到压缩信源输出的信息率,提高系统有效性的目的。 2.1 信源编码定义 关于随机变量X的信源编码C就是从X的取值空间到D*的一个映射,其中D*表示D元字母表上有限长度的字符串所构成的集合。在各种编码方式中,如果码中无任何码字是其他码字的前缀,则称该编码为前缀(prefix code)码或即时码(instantaneous code).对于D元字母表上的即时码,码字长度l1,l2,l3.....lm必定满足Kraft不等式 ,反之,若给定满足以上不等式的一组码子长度,则存在一个相应的即时码,其码字长度就是给定的长度。 2.2 最佳编码 通常称具有最短的代码组平均长度或编码效率接近于1的信源编码为最佳信源编码,亦简

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档