含噪语音信号频谱增强技术统计方法探究及展望.docVIP

下载本文档

2
0
约7.57千字
约 14页
2017-09-02 发布于福建
举报

含噪语音信号频谱增强技术统计方法探究及展望.doc

含噪语音信号频谱增强技术统计方法探究及展望

含噪语音信号频谱增强技术统计方法探究及展望　含噪语音信号频谱增强技术的统计方法研究与展望　1、引言　基于单个麦克风的含噪语音信号频谱增强技术，作为语音识别、助听系统和免提终端通信中的一个重要应用研究领域，一直受到有关学术和工业界的高度重视并引起极大的研究热诚[1-3]，迄今已出现了大量技术方法。最为著名的技术应该算“谱相减”（spectral subtraction）方法[4-5],该方法首先基于含噪语音信号的短时功率谱密度来估计出背景噪声短时功率谱密度，然后将含噪语音信号的短时功率谱密度减去已估背景噪声短时功率谱密度，用该差值的平方根作为频谱幅度，并与原含噪语音信号频谱的相位一起来估计原非含噪语音信号，从而达到语音增强结果。这一技术通常使增强语音信号中存在着影响听觉效果的随机起伏窄带残留噪声，即音乐噪声（musical tone）。为减小和降低这一音乐噪声，Boll[4]、Berouti[6]、Goh[7]、Sim[8]和Gustafsson[9]等相继地提出了一些行之有效的方法，以便改进“谱相减”技术的性能。而Tsoukalas[10]和Virag[11]则分别从人类听觉系统的特性出发，提出了基于听觉遮隐特性（masking property）的谱相减技术。“谱相减”类型的语音增强技术均对语音和噪声作出了最少的先验假设，在应用和实际实现时，合理地选择有关参数，对某些应用场合可得到符合要求的增强结果。　与之相反，语音增强另一类称之为“统计方法”的技术则需要估计出语音增强信号，使其与原非退化语音信号间的失真度最小化[12-16]。这类方法均需要对语音和噪声的可靠统计模型做出先验假定，并且还需要事先规定或定义听觉意义上的失真测度。鉴于语音信号的统计模型和听觉意义上的失真测度至今尚未完全确定，那么现有的不同语音增强统计方法之差别主要在于它们所基于的语音统计模型[12-15]和失真测度[17-19]之不同以及谱增强算法的特殊实现方式[2]。基于隐马尔可夫过程（Hidden Markov Process，HMP）的谱增强技术试图避开对语音和噪声过程的特定统计分布作事先假设[20-23]，它首先根据噪声和非退化语音样本的长训练集序列来估计语音和噪声过程的概率分布，然后将已估两过程之概率分布同时应用于一个给定的失真测度以便导出一个语音信号估计器。通常假设一给定状态序列所产生的矢量是统计独立的。通过利用每个子源非对角协方差矩阵并假设由一给定状态序列所产生的矢量为一个非零阶自回归（AR）过程，那么HMP可扩展到能够处理语音信号时频相关性情况[21，24]。基于HMP语音增强技术十分依赖于训练数据集的类型[25]，在训练集涵盖的噪声类型条件下，其工作性能较好，而在其它类型的噪声条件下，其工作性能较差；并且性能的改善一般地需要更为复杂的模型和更大的计算量。尽管HMP模型已成功地应用于非退化语音信号自论文联盟动识别领域[26-27]，但对语音增强应用而言，该模型的精度尚未能满足这一特定应用的要求[3]。子空间法[28-31]试图将含噪信号的矢量空间分解成一个“信号加噪声”子空间和一个“噪声”子空间。通过移去噪声子空间并在相应余下的子空间中来估计语音信号，从而实现语音谱增强技术。信号空间的分解现有二种方法：基于含噪矢量Toeplitz协方差估计之特征值分解的Karhunen-Loegrave;ve变换（KLT）[28,30]和数据矩阵的奇异值分解（SVD）[32-33]。在“信号加噪声”子空间中，应用线性估计技术来达到信号失真最小化、并由信号来遮荫残留噪声的目的。为此，Jabloun[34]和Hu[35]则从人的听觉系统遮蔽特性和降低残留噪声感知效应的角度出发，分别提出了用于含噪语音增强的感知信号子空间法。　　本文意在讨论和描述含噪语音信号频谱增强系统设计的基本模块元素及其相应的统计技术方法。文中首先描述了谱增强技术的关联问题，其次讨论了语音和噪声信号谱系数的时-频相关特性并给出与该特性一致的相应统计模型。接着，本文讨论和描述了在语音信号出现不确定性下根据不同保真度准则而导出的相应语音谱系数估计器，并讨论了语音信号出现概率的估计问题。文中还讨论了分别基于决策引导（decision-directed）技术和递归估计(recursive estimation)技术的先验SNR估计器,以及噪声功率谱估计的最小统计量技术、最小值控制递归平均（MCRA）技术及其改进型（IMCRA）、连续谱最小值跟踪技术和加权平均技术。最后，本文讨论了含噪语音信号频谱增强算法的选择问题，并展望了其今后可能的研究与发展方向。　2、含噪语音信号谱增强技术问题的数学表征　设x(n)为非退化语音信号，d(n)为不相关的加性噪声，y(n)=x(n)+d

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

含噪语音信号频谱增强技术统计方法探究及展望.docVIP