含噪语音信号频谱增强技术的统计方法研究与展望.docVIP

下载本文档

9
0
约6.42千字
约 6页
2017-05-08 发布于广东
举报
版权申诉

含噪语音信号频谱增强技术的统计方法研究与展望.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

含噪语音信号频谱增强技术的统计方法研究与展望.doc

　　含噪语音信号频谱增强技术的统计方法研究与展望含噪语音信号频谱增强技术的统计方法研究与展望　1、引言　　基于单个麦克风的含噪语音信号频谱增强技术，作为语音识别、助听系统和免提终端通信中的一个重要应用研究领域，一直受到有关学术和工业界的高度重视并引起极大的研究热诚[1-3]，迄今已出现了大量技术方法。最为著名的技术应该算谱相减（spectral subtraction）方法[4-5],该方法首先基于含噪语音信号的短时功率谱密度来估计出背景噪声短时功率谱密度，然后将含噪语音信号的短时功率谱密度减去已估背景噪声短时功率谱密度，用该差值的平方根作为频谱幅度，并与原含噪语音信号频谱的相位一起来估计原非含噪语音信号，从而达到语音增强结果。这一技术通常使增强语音信号中存在着影响听觉效果的随机起伏窄带残留噪声，即音乐噪声（musical tone）。为减小和降低这一音乐噪声，Boll[4]、Berouti[6]、Goh[7]、Sim[8]和Gustafsson[9]等相继地提出了一些行之有效的方法，以便改进谱相减技术的性能。而Tsoukalas[10]和Virag[11]则分别从人类听觉系统的特性出发，提出了基于听觉遮隐特性（masking property）的谱相减技术。谱相减类型的语音增强技术均对语音和噪声作出了最少的先验假设，在应用和实际实现时，合理地选择有关参数，对某些应用场合可得到符合要求的增强结果。　　与之相反，语音增强另一类称之为统计方法的技术则需要估计出语音增强信号，使其与原非退化语音信号间的失真度最小化[12-16]。这类方法均需要对语音和噪声的可靠统计模型做出先验假定，并且还需要事先规定或定义听觉意义上的失真测度。鉴于语音信号的统计模型和听觉意义上的失真测度至今尚未完全确定，那么现有的不同语音增强统计方法之差别主要在于它们所基于的语音统计模型[12-15]和失真测度[17-19]之不同以及谱增强算法的特殊实现方式[2]。基于隐马尔可夫过程（Hidden Markov Process，HMP）的谱增强技术试图避开对语音和噪声过程的特定统计分布作事先假设[20-23]，它首先根据噪声和非退化语音样本的长训练集序列来估计语音和噪声过程的概率分布，然后将已估两过程之概率分布同时应用于一个给定的失真测度以便导出一个语音信号估计器。通常假设一给定状态序列所产生的矢量是统计独立的。通过利用每个子源非对角协方差矩阵并假设由一给定状态序列所产生的矢量为一个非零阶自回归（AR）过程，那么HMP可扩展到能够处理语音信号时频相关性情况[21，24]。基于HMP语音增强技术十分依赖于训练数据集的类型[25]，在训练集涵盖的噪声类型条件下，其工作性能较好，而在其它类型的噪声条件下，其工作性能较差；并且性能的改善一般地需要更为复杂的模型和更大的计算量。尽管HMP模型已成功地应用于非退化语音信号自 .L.动识别领域[26-27]，但对语音增强应用而言，该模型的精度尚未能满足这一特定应用的要求[3]。子空间法[28-31]试图将含噪信号的矢量空间分解成一个信号加噪声子空间和一个噪声子空间。通过移去噪声子空间并在相应余下的子空间中来估计语音信号，从而实现语音谱增强技术。信号空间的分解现有二种方法：基于含噪矢量Toeplitz协方差估计之特征值分解的Karhunen-Loegrave;ve变换（KLT）[28,30]和数据矩阵的奇异值分解（SVD）[32-33]。在信号加噪声子空间中，应用线性估计技术来达到信号失真最小化、并由信号来遮荫残留噪声的目的。为此，Jabloun[34]和Hu[35]则从人的听觉系统遮蔽特性和降低残留噪声感知效应的角度出发，分别提出了用于含噪语音增强的感知信号子空间法。　本文意在讨论和描述含噪语音信号频谱增强系统设计的基本模块元素及其相应的统计技术方法。文中首先描述了谱增强技术的关联问题，其次讨论了语音和噪声信号谱系数的时-频相关特性并给出与该特性一致的相应统计模型。接着，本文讨论和描述了在语音信号出现不确定性下根据不同保真度准则而导出的相应语音 .LCRA）技术及其改进型（IMCRA）、连续谱最小值跟踪技术和加权平均技术。最后，本文讨论了含噪语音信号频谱增强算法的选择问题，并展望了其今后可能的研究与发展方向。　　2、含噪语音信号谱增强技术问题的数学表征　　设x(n)为非退化语音信号，d(n)为不相关的加性噪声，y(n)=x(n)+d(n)为可观测的退化语音信号。应用短时Fourier变换（STFT）将y(n)变换至时-频域，可得：　　本文以下就语音谱增强系统中诸如统计模型、保真度、先验SNR估计器和噪声谱估计器的选择问题进行若干讨论。　　8.1 统计模型和保真度的选择　　目前，高斯语音统计模型构成了许多语音