ch3多媒体数据压缩技术.pptVIP

下载本文档

1
0
约6.72千字
约 43页
2018-05-31 发布于河南
举报
版权申诉

ch3多媒体数据压缩技术.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ch3多媒体数据压缩技术

第三章多媒体数据压缩技术 3.1 数据压缩的基本原理传统上用模拟方式表示声音和图象信息易出故障，常产生噪音和信号丢失，且拷贝过程中噪音和误差逐步积累；模拟信号不适合数字计算机加工处理。数字化处理：巨大的数据量采样定理: 仅当采样频率≥2倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号。采用8bit数字化,从而1秒钟电视信号的数据量约为99.2Mbits。即约为100Mbps。650MB的CD-ROM仅能存约1分钟的原始电视数据。若HDTV(1.2Gbps), 一张CD-ROM还存不下6秒钟的HDTV图象。人说话的音频一般在20Hz到4KHz, 即人类语音的带宽为4KHz。依据采样定理, 设数字化精度为8b, 则1秒钟信号量为64Kbits。因此, 人讲1分钟话的数据量为480KB。数字化处理的关键问题－数据压缩 3.2压缩的基础－数据冗余空间冗余时间冗余信息熵冗余结构冗余知识冗余视觉冗余其它冗余空间冗余这是图象数据中经常存在的一种冗余。在同一幅图象中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成象结构在数字化图象中就表现为数据冗余。时间冗余这是序列图象和语音数据中所经常包含的冗余。图象序列中的两幅相邻的图象之间有较大的相关性,这反映为时间冗余。人在说话时发音音频是一连续的渐变过程,而不是一个完全时间上独立的过程,因而存在时间冗余。信息熵冗余熵在信息论中，熵表示的是不确定性的量度。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。熵在信息论中的定义如下：如果有一个系统S内存在多个事件S = {E1,...,En}, 每个事件的机率分布 P = {p1, ..., pn}，则每个事件本身的讯息为 Ie = ? log2pi （以2为底，单位是位元(bit)） Ie = ? lnpi （以e为底，单位是纳特/nats）例如如英语有26个字母，假如每个字母在文章中出现次数平均的话，每个字母的讯息量为　　I_e = -log2(1/26) = 4.7 而汉字常用的有2500个，假如每个汉字在文章中出现次数平均的话，每个汉字的信息量为　　I_e = -log2(1/2500)= 11.3 结论：如果两个系统具有同样大的消息量，如一篇用不同文字写的同一文章，那么中文文章应用的汉字就比英文文章使用的字母要少,中文文章要短。信息熵冗余信息熵是指一组数据所携带的信息量,它定义为： H=-∑i=0N-1Pilog2Pi N为数据类数或码元个数, Pi为码元yi发生的概率. 为使信息编码单位数据量d接近于或等于H,应设： d=∑i=0N-1Pib(yi) 其中b(yi)是分配给码元yi的比特数, 理论上应取b(yi)=-log2Pi. 实际一般取b(y0)=b(y1)=…=b(yK-1). 例如, 英文字母编码码元长为7bit, 即b(y0)=b(y1)= … =b(yK-1)=7, 这样d必然大于H, 由此带来的冗余称为信息熵冗余或编码冗余。结构冗余有些图象从大域上看存着非常强的纹理结构，我们称它们在结构上存在有冗余. 例如布纹图象和草席图象知识冗余有许多图象的理解与某些基础知识有相当大的相关性。例如,人脸的图象有固定的结构。比如说嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于正脸图象的中线上等等。这类规律性的结构可由先验知识和背景知识得到, 我们称此类冗余为知识冗余。视觉冗余人类视觉系统对于图象场的任何变化,并不是都能感知的。例如,对于图象的编码处理时,由于压缩或量化截断引入了噪声而使图象发生了一些变化,如果这些变化不能为视觉所感知,仍认为图象足够好。事实上人类视觉系统一般分辨能力约为26灰度等级,而一般图象量化采用28灰度等级,这类冗余我们称为视觉冗余。其他冗余例如由图象的空间非定常特性所带来的冗余。 3.3常用的压缩技术从信息语义角度分为“熵(平均信息量)编码”和“源编码”两种： (1)熵 (平均信息量)编码(Entropy Coding) 熵编码是一种泛指那些不考虑被压缩信息的性质的编码和压缩技术。它是基于平均信息量的技术把所有的数据当作比特序列，而不根据压缩信息的类型优化压缩。也就是说，平均信息量编码忽略被压缩信息的语义内容。熵编码分为：重复序列消除编码 (含：消零、行程编码)、统计编码等。 3.3.1行程编码(Run Length Coding) 最简单、最古老