DVAa音频压缩.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DVAa音频压缩.ppt

* G.728 语音编码标准 G.728:短延时码本激励线性预测编码 (LD-CELP) 短延时:2ms,(5 个样本/帧 ? 0.625 ms) 输出码率:16kbps ? 2 比特/样本 ? 10 比特/帧 语音质量优于32kbps 的 G.726 ADPCM 算法 声道滤波器参数:后向自适应 每 4 帧更新一次 10 比特/帧可全用于编码激励 后向自适应 ? 编码器复杂 噪声环境:放弃提取基音周期,改用 50 阶的声道滤波器 足够对女性的基音周期建模 不能利用男性的基音周期信息,并没有严重降低性能 激励源:10 比特 3 比特:增益 7比特:码字索引 ? 码书更小,码字搜索复杂度低 * G.728 语音编码标准 (2) * 正弦声码器 (Sinusoidal Coder) 激励信号:一组时变正弦波之和 正弦波的幅值、频率和相位都随一定的时间 (帧长) 变化 合成语音时帧间需平滑 为了节约码率,采用调和分析 声道滤波器:线性系统 * 正弦变换编码 (STC) 在分析端,输入信号通过快速 Fourier 变换 (FFT) 进行谱分析 由于浊音信号的功率谱具有谐振结构,而清音信号的功率谱具有随机分布的峰值,利用峰值检测算法可确定峰值点的频率以及幅度和相位,对这些参数进行编码传给解码端 在解码端把这些参数作为正弦波的参数来合成语音 在实际的低码率编码中,为了提高编码效率,往往只对谱包络、幅值符号,基音频率和浊音概率频率进行编码 谱包络:谱峰的绝对幅值 浊音概率频率将语音谱分成两部分: 低频段:浊音 高频段:清音 * 混合激励线性预测 (mixed excitation linear predication, MELP) 采用更复杂的方式产生激励:多带混合激励 语音分为清音、浊音和抖动浊音三种状态 浊音:周期脉冲 + 白噪声 抖动浊音:非周期脉冲 + 白噪声 2.4kbs 的 MELP 编码方法已经被确定为美国新的联邦语音编码标准 编码速率为 2.4kbps,帧长为 2.5ms, 每帧数据用 54bit 进行编码 在低码率下的合成语音的自然度大大提高,主观语音质量接近美国联邦 4.8kbps 的 CELP * MELP 声码器 MELP 以 LPC 参数模型为基础,但新增五大特点: 分带混合激励 使用非周期脉冲 自适应谱增强技术 脉冲离散滤波 Fourier 幅度模型 * MELP 声码器:分带混合激励 0~4kHz 的语音频带分成 5 个固定的子带:频域上对激励信号的划分更精细 ?合成的激励更准确 小于500Hz 500~1000Hz 1000~2000Hz 2000~3000Hz 3000~4000Hz 对于每一个非清音帧(包括浊音和抖动浊音帧),分别计算每个子带的清/浊音混合比例(话音强度) ? 本子带内脉冲激励源和噪声激励源的权值 减少LPC声码器中的常有的蜂鸣声,对宽带声源改进的效果更为明显 低频部分对语音的影响更大,并便于基音提取 ? 对低频段的划分更细一些 * MELP 声码器:非周期脉冲 语音分为 3 种状态:清音、浊音和抖动浊音 浊音:周期脉冲 抖动浊音:非周期脉冲 ? 更好地合成介于清、浊音之间的过渡帧和某些周期性不强的浊音帧 非周期标志:表示是否采用非周期脉冲的激励信号 对抖动浊音,解码端产生不稳定的声门脉冲,使过渡音更加自然而不引入其他声调 实现:在0.75 倍基音和1.25倍基音范围内随机抖动 ?减少一种类似电流声的单音噪声,尤其是在对基音较高的女性讲话者和有噪声时非常有效 常用音量来描述音强,以分贝(dB=20log)为单位。音频信号,绝对强度可以放大,但其相对强度更有意义, 一般用动态范围定义: 动态范围=20×log(信号的最大强度 / 信号的最小强度) (dB) * * 功率谱密度的定义是单位频带内的“功率” * 浊音:普通话:声母m,n,l,r, 韵母; 清音:普通话:其他声母 * 激励函数 * * 选择模型阶数P的一般原则是:首先保证有足够的极点来模型声道响应的谐振结构。 根据对发声过程机理的分析,语音谱需要用每千赫两个极点(可以是一对共扼极点)来表征声道响应, 在取样频率为10kHz时,为了反应声道响应需要10个极点, 此外需要3至4个极点通近频谱中可能出现的零点以及声门激励和辐射的组合效应。 因此,在10kHz取样的情况下,要求接数P值为12至14 无需乘法计算,算法复杂度较小。 谷点更尖锐,估计精度更高。 对幅度的变化比较敏感,影响估计的精度 * * 原理: 在实际语音中,有些语音或过渡音,他们的激励既非周期脉冲串,又非白噪声脉冲串,而是混合型的。 较难确定清音和浊音及基音周期 即使是浊音,假设在一个基音周期内仅有单个激励脉冲也过于

文档评论(0)

此项为空 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档