L)语音压缩编码.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
L)语音压缩编码.ppt

第十一讲 声音压缩技术及标准 一、音频压缩概述 声音压缩编码技术分类 多媒体计算机处理的数字化声音有以下几种,其处理方法有所不同, 数字语音 (窄带声音) 包括:电话语音、调幅广播声音,其频率范围比较窄,普通语音为200-3400Hz, AM广播为50-7000Hz,典型采样频率为8KHz、16KHz,量化精度为8bit或16bit。  常采用波形编码、参数编码和混合编码方法来压缩。(如下图所示) 典型压缩编码标准有: G.711、G.721、G.722、G.723、G.726、G.727、G.728、G.729等。 声音压缩编码技术分类 声音压缩编码技术分类 自然界声音(宽带音频) 即高保真立体声音,这种声音质量最好。 频带宽,覆盖了人的听觉范围(20-20000Hz),采样频率高,典型为11.025KHz 、22.05KHz、 44.1KHz 及其它值,数据量极大。 压缩时应充分利用人的听觉特性,建立起心理声学模型,采用以变换编码和子带编码为主的感知音频编码技术。 典型压缩编码标准有: AC-3、MPEG音频编码。 符号化声音(合成声音) MIDI合成音乐、TTS合成语音 本讲主要内容 语音压缩技术 语音 (包括AM广播音频)压缩标准 MPEG-1音频编码标准 (第1-3层) MPEG-2 AAC 高级音频编码标准 MPEG-4 音频编码标准 二、语音压缩技术 2.1 波形编码 波形编码:是典型的建立在声音采样数据的统计特性和人体听觉特性基础上的,目标是使重建语音波形保持原波形的形状。 其编码特点是:适应性强、压缩比小、音质好。 主要算法包括: PCM (脉冲编码调制)、 DPCM(差值量化)、 APCM(自适应量化)、 ADPCM(自适应预测编码)、 ATC(自适应变换编码)、等。 2.1 波形编码 脉冲编码调制 ( PCM ) 采样、量化、编码 标量量化: 均匀量化 非均匀量化 ( u-law 或 A- law 对数压扩) 增量调制 (DM) 与 自适应增量调制 (ADM) 差分 脉码调制 ( DPCM ) 增加预测器 2.1 波形编码 2.1 波形编码 (续) 自适应差分脉码调制 (ADPCM) 自适应量化 自适应预测 2.2 参数编码 参数编码:建立在音频产生模型的基础上,通过提取声学特征参数和激励信号,并编码,解码后根据相同模型合成音频信号。其目标是使重建的音频信号尽量保持原有的音频特性。 参数编码的特点是:压缩率大、数据率低、计算量大、保真度差,自然度低,适用于语音信号的编码。 典型编码算法:LPC (线性预测编码),该编码可将语音数据比特率压缩到 2 ~ 4.8 Kbit/s,甚至更低。 2.2 参数编码 语音生成机构的模型: 声源: 浊音(元音)、清音(摩擦音)、爆破音 声道:用可变参数的数字滤波器来模拟。 语音基本参数: 基音周期、共振蜂、语音谱、声强等。 参数估计:LPC (线性预测编码) 2.2 参数编码 (续) 2.3 混合编码 混合编码:集合了波形编码和参数编码的优点,可以在较低的码率下获得较高音质。 一种被普遍使用的非常成功的混合编解码器就是“分析-合成”编解码器 ( AbS – Analysis by Synthesis )。 2.3 混合编码 AbS 编解码器 : 其激励信号波形尽可能接近于原始话音的波形; 它把输入话音信号分成许多帧(frames ),一般帧长为 20 ms。 编码器一帧一帧地“分析”,得到语音信号参数; 解码器根据参数,一帧一帧地“合成”,恢复出原始语音信号的近似值。 2.3 混合编码 (续) 2.3 混合编码 (续) 典型的混合编码技术有: 矢量和激励 线性预测(VSELP) 多脉冲- 线性预测编码 (MP-LPC) 码本激励 线性预测(CELP),包括: 短时延 - 码本激励线性预测(LD-CELP) 规则脉冲激励 - 长时线性预测(RPE-LTP) 三、语音压缩标准 3.1 电话质量的语音压缩标准 电话质量的声音频率范围为:200 – 3400 Hz。 ITU–TS (原CCITT) 建议的语音压缩的标准: G.711:采用PCM 编码,采样速率为8kHz,量化位数为8bit,推荐使用 A 律 或 ? 律 量化,对应的比特流速率为 64 k bit/s。 G.721: ITU建议的 G.721将64Kbps的比特流转换为32Kbps的流,它是基于 ADPCM 技术。每个数值差分用4位编码,其采样率为8kHz。 3.1 电话质量的语音压缩标准 G.728:它的 比特率为16Kbps,带宽限于3.4kHz。其音质 (MOS=3.7-4.0) 比 G.711或 G.722差得多。它基于一种称为低延迟代码激励线性预测 (LD—CELP) 的

文档评论(0)

此项为空 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档