多媒体技术基础04.pptVIP

下载本文档

1
0
约6.31千字
约 46页
2018-04-29 发布于浙江
举报
版权申诉

多媒体技术基础04.ppt

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多媒体技术第3讲第四讲无损数据压缩主要内容数据压缩概述香农－范诺与霍夫曼编码算术编码行程编码词典编码数据压缩概述数据压缩的定义数据压缩的必要性数据压缩的好处数据压缩的衡量标准数据压缩的分类数据压缩的定义根据编码特点分为以下五种类型: 脉冲编码调制：如PCM编码。预测编码：如DM编码、ADPCM编码等。统计编码(无损)：如Huffman编码、算术编码、RLE编码、词典编码。变换编码：如DCT变换、K-L变换、Wavelet变换。混合编码：如Jpeg编码、Mpeg编码。香农－范诺与霍夫曼编码熵的概念信源的熵香农-范诺编码霍夫曼编码熵的概念熵的概念(续) 为了完全确定事件x(使后验概率为1)所必须提供的信息量称为x事件的非平均自信息量I(x)，非平均自信息量是随机事件的一个固有特性，它表明了事件的先验不确定性大小。某事件x的发生概率为p(x)，则其非平均自信息量I(x)为：信源的熵信源的熵(续) 离散信源(随机事件集合)中每个事件的非平均自信息量I(x)是定义在这个样本空间上的一个随机变量，所以我们要研究它们的统计特性。其数学期望为：信源的熵(续) 熵的大小与信源的概率分布模型有着密切的关系。最大离散熵定理：当与信源对应的符号集中的各个符号为等概率分布时，信源的熵具有极大值log2m。m为符号集中符号的个数。信源的熵(续) 对于同一个信源其总的信息量是不变的，如果能够通过某种变换(编码)，使信源尽量等概率分布，则每个输出符号所独立携带的信息量增大，那么传送相同信息量所需要的序列长度就越短。离散信源的冗余度隐含在信源符号的非等概率分布之中。只要H(x)小于log2m，就存在数据压缩的可能。信源的熵(续) 如果采用二进制编码方式，设符号j的编码长度为Lj，则信源符号表的平均码长为：信源的熵(续) 信源的熵即为离散信源的压缩极限。(理论极限) 只要信源不是等概率分布，就存在着数据压缩的可能性。数据压缩的基本途径：使符号的编码长度尽量等于符号的信息量。典型的熵编码算法有香农-范诺编码与霍夫曼编码。香农－范诺编码香农－范诺编码采用从上到下的方法进行编码，具体步骤为：首先将编码字符集中的字符按照出现频度和概率进行排序。用递归的方法将其分成两部分，使两个部分的概率和接近于相等。直至不可再分，即每一个叶子对应一个字符。对每一个叶子结点进行编码。香农－范诺编码(续) 香农－范诺编码(续) 霍夫曼编码霍夫曼编码(续) 霍夫曼编码(续) 霍夫曼编码(续) 霍夫曼编码的特点：霍夫曼码没有错误保护功能，且错误发生后会出现错误传播，计算机无法更正这种错误，也不知错误发生在何处。霍夫曼码是可变长度码，无法从压缩后的数据中提取部分数据。霍夫曼编码又称为前辍码，即每个符号的编码不能够是其它符号编码的前辍。熵编码算法的核心思想算术编码基本思想：算术编码不是将单个信源符号映射成一个编码，而是把真个信源表示为0到1之间的一个实数区间，其长度等于该序列的概率，再在该区间内选择一个代表性的小数，转化为二进制作为实际的编码输出。信源中的每个元素都要用来缩短这个区间。消息序列中元素越多，所得到的区间就越小，当区间变小时，就需要更多的位来表示这个区间。算术编码用到两个基本的参数：符号的概率和它的编码间隔。在算术编码中需要注意的几个问题：由于实际的计算机的精度不可能无限长，运算中出现溢出是一个明显的问题，但多数机器都有16位、32位或者64位的精度，因此这个问题可使用比例缩放方法解决。算术编码器对整个消息只产生一个码字，这个码字是在间隔[0, 1)中的一个实数，因此译码器在接受到表示这个实数的所有位之前不能进行译码。算术编码也是一种对错误很敏感的编码方法，如果有一位发生错误就会导致整个消息译错。算术编码可以是静态的或者自适应的。行程编码(RLE) 行程编码（Run-Length Encoding）：它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。例如:RTTTTTTTTABBBBC被转换为：R#8TA#4BC，其中“＃”作为转义字符，表明其后所跟的字符表示长度。行程编码多用于黑白二值图像的压缩中。例如:00000000111111111111000001111111被转化为一系列黑串和白串长度的编码：81257。词典编码词典编码主要利用数据本身包含许多重复的字符串的特性。例如：吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮。我们如果用一些简单的代号代替这些字符串，就可以实现压缩，实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。第一类词典编码第一类词典法的想法是企图查找正在压缩的字符