第三章数据压缩详解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容 3.1 数据压缩技术概述 3.2 熵的概念 3.3 无损压缩和常用无损压缩算法。 香农-范诺编码 霍夫曼编码和算术编码 算术编码 行程编码(RLE) 词典编码 3.1 多媒体数据压缩技术概述 数据压缩就是用比较少的数据量表达原始的图像或声音等信息。 多媒体数据压缩的必要性 数据存储容量 传输带宽 3.1.1 多媒体数据冗余类型 多媒体数据有大量的冗余数据,如将重复的数据,改用数学方法表示,就可以减少数据量。 将人的眼睛和耳朵感觉不到的信息去掉,也可以压缩数据。 数据冗余类型有六种: 3.1.1 多媒体数据冗余类型 空间(空域)冗余   如一幅图像,规则物体和规则背景的表面物理特性具有相关性。 3.1.1 多媒体数据冗余类型 信息熵冗余(编码冗余)   信息熵是指一组数据所携带的平均信息量。 3.1.1 多媒体数据冗余类型 知识冗余   许多图像的理解与某些基础知识有相关性,如人脸的结构可由先验知识和背景知识得到。 3.1.2 数据压缩方法分类 按方法的原理分类: 信息熵编码 预测编码 变换编码 量化与向量量化编码 频带编码 模型编码 基于知识的编码 3.1.3 数据压缩方法的基本原理 统计冗余度的压缩 空间冗余度的压缩 时间冗余度的压缩 视觉冗余度的压缩 信源被抽象为一个随机变量序列(随机过程)。 如果信源输出的随机变量取值于某一连续区间,就叫做连续信源。比如语音信号X(t)。 如果信源输出的随机变量取值于某一离散符号集合,就叫做离散信源。比如平面图像X(x,y)和电报。 3.2.1 决策量、信息量和熵 香农信息论把一个事件(字符a1)所携带的信息量定义为: I(a1) = log2 (1/p) = - log2 p (bit) 其中p为事件发生(字符出现)的概率 I(a1)即随机变量X取值为a1时所携带的信息量 因为X的信息量也是一个随机变量,所以我们要研究它的统计特性。其数学期望为: 称H(X)为一阶信息熵或者简称为熵(Entropy) 信源的概率分布与熵的关系 熵的大小与信源的概率模型(分布)有着密切的关系。是无序的表现。 最大离散熵定理:当与信源对应的字符集中的各个字符为等概率分布时,熵具有极大值log2m。m为字符集中字符个数。 3.2.3 平均码长与熵 如果对字符aj的编码长度为Lj,则X的平均码长为: 根据前面的分析,有: 数据冗余量 熵编码 熵编码包括香农-范诺编码、霍夫曼编码和算术编码,其宗旨在于找到一种编码使得平均码长达到熵极限,基本思想就是对出现概率较大的符号取较短的码长,而对出现概率较小的符号取较大的码长。 3.3.1 香农-范诺编码 在香农的源编码理论中,熵的大小表示非冗余的不可压缩的信息量。 在计算熵时,以2为底的对数时,单位就是“位bit”。 例 2.1 见书P27 压缩比的理论值 符号编码 压缩比的实际值 香农-范诺编码 3.3.2 霍夫曼编码 Huffman(霍夫曼) 1952年问世,依据变字长编码理论 具体步骤: (1)初始化,按概率排序 (2)合并概率最小的两个事件 (3)重复(2),形成一棵树 (4)从根节点开始分配代码 (5)写出每个符号的代码 (6)按照香农理论计算熵 霍夫曼编码举例 局限性 霍夫曼码没有错误保护功能,     错误传播 可变长度码,很难随意查找压缩文件中间的内容。 3.3.3 算术编码 基本思想:算术编码不是将单个信源符号映射成一个码字,而是把整个信源表示为实数线上的0到1之间的一个区间,其长度等于该序列的概率,再在该区间内选择一个代表性的小数,转化为二进制作为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间。 采用算术编码每个符号的平均编码长度可以为小数。 算术编码举例 算术编码的具体实现 因为实际只能用有限长的寄存器,这就要求将已编码的高位码字及时输出,但又不能输出过早,以免后续运算还要调整已输出的码位。(具体算法见相关参考书) 算术编码每次递推都要做乘法,所以效率比较低。二进制算术编码是一种实用的编码算法,用移位代替了乘法,使效率大大提高。 自适应算术编码可以在编码过程中根据符号出现的频繁程度动态的修改分布概率,这样可以避免在编码之前必须精确求出信源概率的难题。 自适应算术编码举例 3.3.4 行程编码(RLE) 行程编码(Run-Le

文档评论(0)

钱缘 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档