图像压缩与音视频压缩国际标准讲述.ppt

下载文档 降价啦

1
0
约2.54万字
约 182页
2017-03-26 发布于湖北
举报
版权申诉
保障服务

图像压缩与音视频压缩国际标准讲述.ppt

1、本文档共182页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

图像压缩与音视频压缩国际标准讲述

压缩编码技术熵编码波形编码：在信号采样和量化过程中考虑人的特性，适应人的应用要求，PCM、DPCM、ADPCM等参数编码：将音频信号以某种模型表示，压缩倍数很高，计算量大，保真度不高，适合对语音信号编码混合编码：吸取波形和参数编码的优点，综合编码 G.711标准：1972年，人们最熟知的标准，非线性量化PCM 编码，64kbps G.721标准：1984年，ADPCM，6bit编码，32kbps，能够得到比3阶DPCM好的信号质量。语音质量高于电话质量，可达调幅广播质量。 G.722标准：采用子带编码，将输入语音信号划分为两个子带（50Hz-3.5kHz, 3.5kHz-7kHz），再分别对两个子带进行ADPCM编码。每个子带可以使用不同的速率（64kbps,56kbps,48kbps），适合于电话会议系统。 G.726标准：用子带编码将输入信号划分为两个子带，然后对两个子带分别独立进行取样和ADPCM编码。输入语音带宽300Hz-3.4kHz，其速率可以为40kbps, 32kpbs, 24kbps, 16kbps。 G.723标准：采用码激励线性预测编码（CELP）方法，5.3/6.3kpbs，适用于实时多媒体通信。 G.728标准：基于短时延码本激励线性预测编码LD-CELP ，16kbps, 用于低数据速率电话。 G.729标准：基于共轭结构代数码本激励线性预测编码CS-ACELP ，8kbps，适用于个人移动通信。 GSM标准：1992年，德国，长时延线性预测规则码本激励RPE-LTP 编码，13kbps CTIA标准：1989年，美国，矢量和激励线性预测技术VSELP ，8kbps 美国国家安全局1982年采用LPC算法，2.4kbps 美国国家安全局1989年采用CELPC算法，4.8kbps G.722标准：1988年，64kbps，从采样频率为16kHZ，量化为14bit的224kbps中压缩而来，可以在窄带ISDN中传送调幅广播质量的音频信号. ① 层1的编码器最为简单，编码器的输出数据率为384 kb/s，主要用于小型数字盒式磁带(digital compact cassette，DCC)。 ② 层2的编码器的复杂程度属中等，编码器的输出数据率为256 kb/s－192 kb/s，其应用包括数字广播声音(digital broadcast audio，DBA)、数字音乐、CD-I(compact disc-interactive)和VCD(video compact disc)等。 ③ 层3的编码器最为复杂，编码器的输出数据率为64 kb/s，广泛用于INTERNET传播。 MPEG的声音数据分成帧(frame)，层1每帧包含384个样本的数据，每帧由32个子带分别输出的12个样本组成。层Ⅱ即称掩蔽模式通用子带集成编码与多路复用，层2对层1作了一些直观的改进，相当于3个层1的帧，每帧有1152个样本。它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性，并且在低、中和高频段对位分配作了一些限制，对位分配、比例因子和量化样本值的编码也更紧凑。由于层2采用了上述措施，因此所需的位数减少了，这样就可以有更多的位用来表示声音数据，音质也比层1更高。典型的码流为每通道128 Kbit/S，广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。 MUX(多路复合器)相当“数据流帧包装”，它按规定的帧格式对声音样本和编码信息(包括比特分配合比例因子等)进行包装。每帧都包含：①用于同步和记录该帧信息的同步头，长度为32位②用于检查是否有错误的循环冗余码(cyclic redundancy code，CRC)，长度为16位，③用于描述位分配的位分配域，长度为4位，④比例因子域，长度为6位，⑤子带样本域，⑥有可能添加的附加数据域，长度未规定。层3使用比较好的临界频带滤波器，把声音频带分成非等带宽的子带，心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外，还考虑了立体声数据的冗余，并且使用了赫夫曼(Huffman)编码器。虽然层3所用的滤波器组与层1和层2所用的滤波器组的结构相同，但是层3还使用了改进离散余弦变换(modified discrete cosine transform，MDCT)，对层1和层2的滤波器组的不足作了一些补偿除了使用MDCT外，层3还采用了其他许多改进措施来提高压缩比而不降低音质。虽然层3引入了许多复杂的概念，但是它的计算量并没有比层2增加很多。增加的主要是编码器的复杂度和解码器所需要的存储容量层Ⅲ是综合于层Ⅱ和ASPEC（自适应谱分析听觉熵编码）的优点提出的混合压缩技术，MP3的复杂度相对较高，典型码流为64 Kbit/S，在