- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章无损数据压缩-Read
多媒体核心技术:压缩 数据压缩起源于 40 年代由 Claude Shannon 首创的信息论,其基本原理即信息究竟能被压缩到多小,至今依然遵循信息论中的一条定理,这条定理借用了热力学中的名词“熵”( Entropy )来表示一条信息中真正需要编码的信息量 考虑用 0 和 1 组成的二进制数码为含有 n 个符号的某条信息编码,假设符号 Fn 在整条信息中重复出现的概率为 Pn,则该符号的熵也即表示该符号所需的位数 考虑用 0 和 1 组成的二进制数码为含有 n 个符号的某条信息编码,假设符号 Fn 在整条信息中重复出现的概率为 Pn,则该符号的熵也即表示该符号所需的位数位为: En = - log2( Pn ) 整条信息的熵也即表示整条信息所需的位数为:E = ∑En 举个例子,对下面这条只出现了 a b c 三个字符的字符串: aabbaccbaa 字符串长度为 10,字符 a b c 分别出现了 5 3 2 次,则 a b c 在信息中出现的概率分别为 0.5 0.3 0.2,他们的熵分别为: Ea = -log2(0.5) = 1 Eb = -log2(0.3) = 1.737 Ec = -log2(0.2) = 2.322 整条信息的熵也即表达整个字符串需要的位数为: E = Ea * 5 + Eb * 3 + Ec * 2 = 14.855 位 如果用计算机中的 ASCII 编码,表示上面的字符串需要整整 80 位呢!简单地讲,用较少的位数表示较频繁出现的符号,这就是数据压缩的基本准则。 无损数据压缩概念 方式:无损,有损 无损(lossless compression,redundancy reduction) 压缩后的数据能够完全恢复,如磁盘上的数据文件, 压缩后是原来的1/2—1/4 算法有:Huffman, RLE,算术编码,词典编码 有损:lossy,不可逆压缩。 声音、图像中的变换编码, 例如,DM, APCM, DPCM(图3-14)由于存在量化器 4.1 Shannon的信息论与数据压缩 1. 1948年Shannon香农创立的信息论: 数据压缩理论极限。 数据压缩的技术途径。 压缩原理: 信源中信息分布不均匀; 信源中信息含有冗余(相关性) 举例 26个字母和一个分隔符,共27个字符组成的英文文件,看成信源,该信源的极限(根据字符出现的频率不同): H(x)=1.4bit/字符 原因: 27个字符编码,5bits 分布不均匀:如a,b,c的出现频率比x,y,z高 信源相关系:er,ture,ed,ing等 2. 信息熵entropy 问题:随机变量的一个取值a,携带的信息量是多少? 相关概念: 消息:数据、电报、电话。 信息:对消息加工,有特定价值 一个信息带有一定的信息量,大小不等 例子 一个消息:某试验成功 试验人员预计成功的可能性99%:信息量很小 试验人员预计成功的可能性1%:信息量很大 3. 信息量:在收到信息以前,处于某种不确定状态中,收到信息之后,消除或部分消除了此不确定性。消除不确定性多少,就可以作为信息的度量。 4. Shannon 用概率说明这一概念 事件出现的概率小,相当于不确定性多,反之,则少。 Pi为事件ai发生的概率,则ai出现后的自信息量为 I(ai)=-log pi 5.信息熵(Entropy) 表示每出现一个字符所给出的平均信息量。 “底”不同而值不同,因而单位也就不同 当取底为r的整数时,则熵的信息单位称作r进制信息单位 r=2, 单位为bit(比特) r=e, 单位为Nat(奈特) r=10, 单位为Hart(哈特) log不特别说明时,取为2 6. 信息熵的理解: 处于事件发生之前,根据先验概率Pj, 就有 不同的确定性存在,I(ai)与H(x)都是不确定性度量。 当处于事件发生之时,是一种惊奇性的度量 但出于事件发生之后,不确定性已被解除,则是获得信息的度量 可以认为是事件随机性的度量,因其仅仅对概率Pj取另个坐标而已。 7. H(x)就是对离散信源进行无失真编码时的码长极限。 8.举例 信源取4个符号a1,a2,a3,a4,概率1/2,1/4,1/8,1/8 信源的熵H(x)=…=1.75 bit/字符 若用编码(0, 10, 110, 111), 则平均码长=…=1.75 考虑以下几种变长编码:码B唯一可译 例1:例4.1 例2:8个字符具有等可能性 例3:字符的分布已知: P=(0.9,0.02,0.02,0.02,0.01,0.01,0.01,0.01) H(
您可能关注的文档
- 第一周上课-国立中正大学运动科学教育研究室.ppt
- 第一次课(模拟).ppt
- 第一章OPP的定位-中国食品物流.doc
- 第一章数控机床概述-西安理工大学高等技术学院.ppt
- 第一期饭后5件事有损健康.doc
- 称之为分析力学。.ppt
- 第一章课程概述和流体的物理性质流体力学(水力学)以流体(水)为主要.doc
- 第一章物理学和力学(绪论).ppt
- 第一章流体流动.doc.doc
- 第一章绪论及基本概念材料力学Ⅰ电子教案.ppt
- Module5Unit1Howmany?(课件)英语三年级上册(13).pptx
- 2024年中考物理二轮复习课件电学实验探究 2.pptx
- 21.2电磁波的海洋九年级物理全一册一体化资源(人教版) 3.pptx
- Unit4EverydayeconomicsUsingLanguage语法课件高中英语选择性.pptx
- Module2Unit2MrLiwasateacher(课件)英语五年级下册.pptx
- 6.2怎样描述力沪科版物理八年级上学期【03】.pptx
- 6.1圆周运动课件高一下学期物理人教版(5【04】).pptx
- 一中(东校区)2017-2018学年高二下学期期中考试政治试题.doc
- 7.3重力人教版物理八年级下学期(56).pptx
- 5.2.2一氧化氮与二氧化氮课件高一下学期化学人教版(2【03】).pptx
文档评论(0)