L)语音压缩编码.ppt

下载文档 降价啦

14
0
约4.43千字
约 31页
2015-12-27 发布于湖北
举报
版权申诉
保障服务

L)语音压缩编码.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

L)语音压缩编码.ppt

第十一讲声音压缩技术及标准一、音频压缩概述声音压缩编码技术分类多媒体计算机处理的数字化声音有以下几种，其处理方法有所不同，数字语音 (窄带声音) 包括：电话语音、调幅广播声音，其频率范围比较窄,普通语音为200-3400Hz, AM广播为50-7000Hz，典型采样频率为8KHz、16KHz，量化精度为8bit或16bit。　常采用波形编码、参数编码和混合编码方法来压缩。(如下图所示) 典型压缩编码标准有: G.711、G.721、G.722、G.723、G.726、G.727、G.728、G.729等。声音压缩编码技术分类声音压缩编码技术分类自然界声音（宽带音频）即高保真立体声音，这种声音质量最好。频带宽，覆盖了人的听觉范围(20-20000Hz)，采样频率高，典型为11.025KHz 、22.05KHz、 44.1KHz 及其它值，数据量极大。压缩时应充分利用人的听觉特性，建立起心理声学模型，采用以变换编码和子带编码为主的感知音频编码技术。典型压缩编码标准有: AC-3、MPEG音频编码。符号化声音（合成声音） MIDI合成音乐、TTS合成语音本讲主要内容语音压缩技术语音 (包括AM广播音频）压缩标准 MPEG-1音频编码标准 (第1-3层) MPEG-2 AAC 高级音频编码标准 MPEG-4 音频编码标准二、语音压缩技术 2.1 波形编码波形编码：是典型的建立在声音采样数据的统计特性和人体听觉特性基础上的，目标是使重建语音波形保持原波形的形状。其编码特点是：适应性强、压缩比小、音质好。主要算法包括： PCM (脉冲编码调制）、 DPCM（差值量化）、 APCM（自适应量化）、 ADPCM（自适应预测编码）、 ATC（自适应变换编码）、等。 2.1 波形编码脉冲编码调制 ( PCM ) 采样、量化、编码标量量化：均匀量化非均匀量化 ( u-law 或 A- law 对数压扩) 增量调制 (DM) 与自适应增量调制 (ADM) 差分脉码调制 ( DPCM ) 增加预测器 2.1 波形编码 2.1 波形编码 (续) 自适应差分脉码调制 (ADPCM) 自适应量化自适应预测 2.2 参数编码参数编码：建立在音频产生模型的基础上，通过提取声学特征参数和激励信号，并编码，解码后根据相同模型合成音频信号。其目标是使重建的音频信号尽量保持原有的音频特性。参数编码的特点是：压缩率大、数据率低、计算量大、保真度差，自然度低，适用于语音信号的编码。典型编码算法：LPC　(线性预测编码），该编码可将语音数据比特率压缩到 2 ~ 4.8 Kbit/s，甚至更低。 2.2 参数编码语音生成机构的模型：声源: 浊音(元音)、清音（摩擦音）、爆破音声道：用可变参数的数字滤波器来模拟。语音基本参数：基音周期、共振蜂、语音谱、声强等。参数估计：LPC (线性预测编码) 2.2 参数编码 (续) 2.3 混合编码混合编码：集合了波形编码和参数编码的优点，可以在较低的码率下获得较高音质。一种被普遍使用的非常成功的混合编解码器就是“分析-合成”编解码器 ( AbS – Analysis by Synthesis ）。 2.3 混合编码 AbS 编解码器 : 其激励信号波形尽可能接近于原始话音的波形；它把输入话音信号分成许多帧（frames ）,一般帧长为 20 ms。编码器一帧一帧地“分析”，得到语音信号参数；解码器根据参数，一帧一帧地“合成”，恢复出原始语音信号的近似值。 2.3 混合编码 (续) 2.3 混合编码 (续) 典型的混合编码技术有：矢量和激励线性预测（VSELP）多脉冲- 线性预测编码（MP-LPC）码本激励线性预测（CELP），包括：短时延 - 码本激励线性预测（LD-CELP）规则脉冲激励 - 长时线性预测（RPE-LTP）三、语音压缩标准 3.1 电话质量的语音压缩标准电话质量的声音频率范围为：200 – 3400 Hz。 ITU–TS (原CCITT) 建议的语音压缩的标准： G.711：采用PCM 编码，采样速率为8kHz，量化位数为8bit，推荐使用 A 律或 ? 律量化，对应的比特流速率为 64 k bit/s。 G.721： ITU建议的 G.721将64Kbps的比特流转换为32Kbps的流，它是基于 ADPCM 技术。每个数值差分用4位编码，其采样率为8kHz。 3.1 电话质量的语音压缩标准 G.728：它的比特率为16Kbps，带宽限于3.4kHz。其音质 (MOS=3.7-4.0) 比 G.711或 G.722差得多。它基于一种称为低延迟代码激励线性预测 (LD—CELP) 的