数字语音处理 第11章 语音增强
第11章 语音增强 二、语音增强的目标 1、对收听人而言主要是改善语音质量,提高语音可懂度,减少疲劳感; 2、对语音处理系统(识别器、声码器、手机)而言是提高系统的识别率和抗干扰能力。 1.语音信号具有短时平稳性 声道形状有相对稳定性,在一段时间内(10ms~30ms),人的声带和声道形状是相对稳定的,可认为其特征是不变的,因而语音的短时谱具有相对稳定性,在语音分析中可以把语音信号分为若干分析帧,每一帧的语音可以认为是准稳定的。语音增强可以利用这种短时平稳性。 2.语音信号可以分为浊音和清音 语音可以分为周期性的浊音和非周期性的清音。在语音增强中,可以利用浊音的周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。 3.语音信号可以利用统计分析特征描述 作为一个随机过程,语音信号可以利用许多统计分析特征进行分析。 语音的短时谱幅度统计特征是时变的,只有当分析帧长趋于无穷大时,才能近似具有高斯分布。在高斯模型的假设中,可以认为傅里叶展开系数是独立的高斯随机变量,均值为零,而方差是时变的。在有限帧长时这种高斯模型只是一种近似的描述,可以作为分析的前提在宽带噪声污染的带噪语音增强中应用。 人耳对语音的感知主要是通过语音信号频谱分量幅度获取的,对各分量相位则不敏感,对频率高低的感受近似与该频率的对数值成正比。 人耳具有掩蔽效应,人耳除了可以感受声音的强度、音调、音色和空间方位外,还可以在两人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人体内部语音理解机制具有的一种感知能力。 语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。 噪声度量的另一个参数就是信噪比。 其中Ps和Pn分别代表信号和噪声的有效功率。 目前MP3播放器的信噪比有60dB、65dB、85dB、90dB、95dB等等,而在汽车中SNR只有几dB。 图11.1 通过语音增强技术改善语音质量的过程 目前语音增强算法大致可以分为四种: 参数方法 非参数方法 统计方法 其它方法 此类方法主要依赖于使用的语音生成模型(例如AR模型),需要提取模型参数(如基音周期、LPC系数),常常使用迭代方法。 如果实际噪音或语音条件与模型有较大的差距,或提取模型参数有困难,则此类方法容易失效。采用滤波器模型时,典型的有梳状滤波器、维纳滤波器、卡尔曼滤波器等。 语音的全极点生成模型如图11.2所示: 语音的全极点生成模型中: 激励源为u(n) ;增益因子为g;语音信号为s(n) 全极点滤波器为: 根据全极点模型有 s(n)为清音时,u(n)为宽带噪声;s(n)为浊音时,u(n)为间隔是基音周期T的脉冲串。 11.3.2 非参数方法 非参数方法不需要从带噪信号中估计模型参数,因此这种方法的应用范围较广。但由于没有利用可能的语言统计信息,故结果一般不是最优化的。 这类方法包括自适应噪声对消法、减谱法等。 1.自适应噪声对消法 图11.3 自适应噪声对消原理图 设带噪语音输入为y(n)=s(n)+d(n), s(n)为语音信号,d(n)为未知噪声信号,r(n)参考噪声输入,也即自适应滤波器的输入,v(n)是该滤波器的输出。 r(n)与s(n)无关,而与d(n)相关。 自适应滤波器原理:在输入过程的统计特性未知或是输入过程的统计特性变化时,能够调整自己的参数,以满足某种最佳准则的要求。 自适应噪声对消的原理就是通过对 r(n)的滤波,使输出的噪声估值v(n)尽可能接近带噪语音中的d(n),然后从带噪语音中直接减去 v(n) ,达到语音增强的目的。 其中,wk是滤波器系数,N是滤波器抽头数。MMSE准则要求噪声和语音相互独立,这时,误差信号e(n)能量最小,可保证v(n)与d(n)最接近。 2.减谱法 是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。 没有使用参考噪声源,但它假设噪声是统计平稳的,即有语音期间噪声幅度谱的期望值与无语音间隙噪声的幅度谱的期望值相等。 原理:用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声
原创力文档

文档评论(0)