[信息与通信]第五章 数据压缩编码.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[信息与通信]第五章 数据压缩编码

多媒体技术 第3讲 主要内容 数据压缩概述 经典数据压缩理论 香农-范诺与霍夫曼编码 算术编码 行程编码 词典编码 预测编码 变换编码 经典数据压缩理论 信息论中的信源编码理论解决的主要问题: (1)数据压缩的理论极限 (2)数据压缩的基本途径 离散事件的非平均自信息量 为了完全确定事件x(使后验概率为1)所必须提供的信息量称为x事件的非平均自信息量I(x) 熵(Entropy) 事件集合(样本空间)X中每个事件的自信息量I(x)是定义在这个样本空间上的一个随机变量,所以我们要研究它的统计特性。其数学期望为: H(X)表明了集合X中随机事件的平均不确定性,或者说平均信息量。 称H(X)为一阶信息熵或者简称为熵(Entropy) 熵(Entropy) 在符号出现之前,熵表示符号集中的符号出现的平均不确定性;在符号出现之后,熵代表接收一个符号所获得的平均信息量。 根据直觉,信源编码的数据输出速率(平均码长)与信源熵之间应该有某种对应关系。 信源的概率分布与熵的关系 熵的大小与信源的概率分布模型有着密切的关系。 最大离散熵定理:当与信源对应的字符集中的各个字符为等概率分布时,熵具有极大值log2m。m为字符集中字符个数。 二进制信源的熵 二进制信源输出一个二进制数码所携带的平均信息量最大为1bit。 最大离散熵定理的应用 对于同一个信源其总的信息量是不变的,如果能够通过某种变换(编码),使信源尽量等概率分布,则每个输出符号所独立携带的信息量增大,那么传送相同信息量所需要的序列长度就越短。 离散无记忆信源的冗余度隐含在信源符号的非等概率 分布之中。只要H(X)小于log2m,就存在数据压缩的可能。 编码 平均码长与熵 如果采用单字符二进制编码方式,设字符aj的编码长度为Lj,则信源字母表的平均码长为: 根据前面对二进制信源的分析,有: 关于离散无记忆平稳信源的结论 一阶熵即为离散无记忆平稳信源的压缩极限。(基本极限) 只要信源不是等概率分布,就存在着数据压缩的可能性。 数据压缩的基本途径之一:使各字符的编码长度尽量等于字符的信息量。 熵编码 熵编码包括香农-范诺编码、霍夫曼编码和算术编码,其宗旨在于找到一种编码使得平均码长到达熵极限,基本思想就是对出现概率较大的符号取较短的码长,而对出现概率较小的符号取较大的码长。 霍夫曼编码 具体步骤: (1)初始化 (2)合并概率最小的两个事件 (3)排序 (4)如果事件个数大于2则重复(2)和(3) (5)赋值 (6)编码 霍夫曼编码举例 霍夫曼编码的局限性 利用霍夫曼编码,每个符号的编码长度只能为整数,所以如果源符号集的概率分布不是2负n次方的形式,则无法达到熵极限。 输入符号数受限于可实现的码表尺寸 译码复杂 需要实现知道输入符号集的概率分布 没有错误保护功能 香农-范诺编码 香农-范诺编码与Huffman编码相反,采用从上到下的方法。 具体步骤为: (1)首先将编码字符集中的字符按照出现频度和概率进行排序。 (2)用递归的方法分成两部分,使两个部分的概率和接近于相等。直至不可再分,即每一个叶子对应一个字符。 (3)编码。 香农-范诺编码举例 算术编码 Huffman 编码的局限性: Huffman 编码使用整数个二进制位对符号进行编码,这种方法在许多情况下无法得到最优的压缩效果。假设某个字符的出现概率为 80%,该字符事实上只需要 -log2(0.8) = 0.322 位编码,但 Huffman 编码一定会为其分配一位 0 或一位 1 的编码。可以想象,整个信息的 80% 在压缩后都几乎相当于理想长度的 3 倍左右。 算术编码 基本思想:算术编码不是将单个信源符号映射成一个码字,而是把真个信源表示为实数线上的0到1之间的一个区间,其长度等于该序列的概率,再在该区间内选择一个代表性的小数,转化为二进制作为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间。 采用算术编码每个符号的平均编码长度可以为小数。 算术编码举例(一) 算术编码举例(二) 最后的子区间起始位置= 85/256 = 0 子区间长度 = 27/256 = 0 子区间尾 = 7/16 = 0.0111 取编码区间中的一个值,最后编码为:011 算术编码的具体实现 因为实际只能用有限长的寄存器,这就要求将已编码的高位码字及时输出,但又不能输出过早,以免后续运算还要调整已输出的码位。(请看参考书上给出的算法) 算术编码每次递推都要做乘法,所以效率比较低。二进制算术编

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档