DVAa音频压缩.ppt

下载文档 降价啦

3
0
约1.38万字
约 59页
2015-12-26 发布于湖北
举报
版权申诉
保障服务

DVAa音频压缩.ppt

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DVAa音频压缩.ppt

* G.728 语音编码标准 G.728：短延时码本激励线性预测编码 (LD-CELP) 短延时：2ms，（5 个样本/帧 ? 0.625 ms) 输出码率：16kbps ? 2 比特/样本 ? 10 比特/帧语音质量优于32kbps 的 G.726 ADPCM 算法声道滤波器参数：后向自适应每 4 帧更新一次 10 比特/帧可全用于编码激励后向自适应 ? 编码器复杂噪声环境：放弃提取基音周期，改用 50 阶的声道滤波器足够对女性的基音周期建模不能利用男性的基音周期信息，并没有严重降低性能激励源：10 比特 3 比特：增益 7比特：码字索引 ? 码书更小，码字搜索复杂度低 * G.728 语音编码标准 (2) * 正弦声码器 (Sinusoidal Coder) 激励信号：一组时变正弦波之和正弦波的幅值、频率和相位都随一定的时间 (帧长) 变化合成语音时帧间需平滑为了节约码率，采用调和分析声道滤波器：线性系统 * 正弦变换编码 (STC) 在分析端，输入信号通过快速 Fourier 变换 (FFT) 进行谱分析由于浊音信号的功率谱具有谐振结构，而清音信号的功率谱具有随机分布的峰值，利用峰值检测算法可确定峰值点的频率以及幅度和相位，对这些参数进行编码传给解码端在解码端把这些参数作为正弦波的参数来合成语音在实际的低码率编码中，为了提高编码效率，往往只对谱包络、幅值符号，基音频率和浊音概率频率进行编码谱包络：谱峰的绝对幅值浊音概率频率将语音谱分成两部分：低频段：浊音高频段：清音 * 混合激励线性预测(mixed excitation linear predication, MELP) 采用更复杂的方式产生激励：多带混合激励语音分为清音、浊音和抖动浊音三种状态浊音：周期脉冲 + 白噪声抖动浊音：非周期脉冲 + 白噪声 2.4kbs 的 MELP 编码方法已经被确定为美国新的联邦语音编码标准编码速率为 2.4kbps，帧长为 2.5ms，每帧数据用 54bit 进行编码在低码率下的合成语音的自然度大大提高，主观语音质量接近美国联邦 4.8kbps 的 CELP * MELP 声码器 MELP 以 LPC 参数模型为基础，但新增五大特点：分带混合激励使用非周期脉冲自适应谱增强技术脉冲离散滤波 Fourier 幅度模型 * MELP 声码器：分带混合激励 0~4kHz 的语音频带分成 5 个固定的子带：频域上对激励信号的划分更精细 ?合成的激励更准确小于500Hz 500~1000Hz 1000~2000Hz 2000~3000Hz 3000~4000Hz 对于每一个非清音帧（包括浊音和抖动浊音帧），分别计算每个子带的清/浊音混合比例(话音强度) ? 本子带内脉冲激励源和噪声激励源的权值减少LPC声码器中的常有的蜂鸣声，对宽带声源改进的效果更为明显低频部分对语音的影响更大，并便于基音提取 ? 对低频段的划分更细一些 * MELP 声码器：非周期脉冲语音分为 3 种状态：清音、浊音和抖动浊音浊音：周期脉冲抖动浊音：非周期脉冲 ? 更好地合成介于清、浊音之间的过渡帧和某些周期性不强的浊音帧非周期标志：表示是否采用非周期脉冲的激励信号对抖动浊音，解码端产生不稳定的声门脉冲，使过渡音更加自然而不引入其他声调实现：在0.75 倍基音和1.25倍基音范围内随机抖动 ?减少一种类似电流声的单音噪声，尤其是在对基音较高的女性讲话者和有噪声时非常有效常用音量来描述音强，以分贝（dB=20log）为单位。音频信号，绝对强度可以放大，但其相对强度更有意义，一般用动态范围定义：动态范围=20×log（信号的最大强度 / 信号的最小强度）（dB） * * 功率谱密度的定义是单位频带内的“功率” * 浊音：普通话：声母m,n,l,r, 韵母；清音：普通话：其他声母 * 激励函数 * * 选择模型阶数P的一般原则是:首先保证有足够的极点来模型声道响应的谐振结构。根据对发声过程机理的分析，语音谱需要用每千赫两个极点(可以是一对共扼极点)来表征声道响应，在取样频率为10kHz时，为了反应声道响应需要10个极点，此外需要3至4个极点通近频谱中可能出现的零点以及声门激励和辐射的组合效应。因此，在10kHz取样的情况下，要求接数P值为12至14 无需乘法计算，算法复杂度较小。谷点更尖锐，估计精度更高。对幅度的变化比较敏感，影响估计的精度 * * 原理：在实际语音中，有些语音或过渡音，他们的激励既非周期脉冲串，又非白噪声脉冲串，而是混合型的。较难确定清音和浊音及基音周期即使是浊音，假设在一个基音周期内仅有单个激励脉冲也过于