基本语音增强方法..docVIP

下载本文档

11
0
约3.45千字
约 5页
2017-01-29 发布于重庆
举报
版权申诉

基本语音增强方法..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基本语音增强方法.

基本语音增强方法概述摘要：语音增强是当今语音处理的一个非常重要的领域，本文主要介绍当今比较普遍的几种基于人耳掩蔽阈值的语音增强方法：谱减法，维纳滤波法，子空间方法等，并对它们的优缺点作简要论述。关键词：语音增强、人耳掩蔽、谱减法、维纳滤波、子空间现今时代的主流步伐将我们带向自动化方向，语音识别在这一背景下显得尤为重要。目前已经开发出好几款语音识别软件，但是如何较为精确地实现人耳的掩蔽效应下的语音增强，仍是大家着重解决的问题。它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号，改善其质量。目前已经出现了谱减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。一、语音的特性语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。人耳在嘈杂的环境中，仍然能够清晰地听到自己想听的内容，一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值，或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候，由于干扰信号和目标信号的强度差别不大，导致机器无法识别。这时语音增强就显得特别重要了。时域方法此类方法主要依赖于语音生成模型(例如AR模型)的使用，需要提取模型参数(如基音周期、LPC系数等)，经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别，或者由于某些原因使得提取语音参数较困难，则这方法较容易失败。这类方法常用到一些滤波器，如梳状滤波器、维纳滤波器、卡尔曼滤波器等。（1）经典的维纳滤波法是根据Winer-Hopf 积分方程求出纯语音和混合音的传递函数来实现语音增强目的的。经典的算法常常只通过计算无声期间的统计平均来估计噪声功率谱，这是假设噪声的功率谱在发声前和发声期间基本没有变化前提下的，这样的估计和假设显然是不够全面的。另外，经典的算法能有效地抑制变化范围不大或是稳定的噪声，但是对实际中的变化范围很广的噪声效果不是很好。当然，也有很多改进的维纳滤波法，比如：计算无声段的统计平均得到初始噪声功率谱功率谱、计算语音段间带噪语音功率谱，并平滑处理初始噪声功率谱和带噪语音功率谱，更新噪声功率谱。也可以将维纳滤波扩展为卡尔曼滤波，适用于非平稳过程。（2）子空间增强算法是将语音信号看成K 维向量空间，并将带噪信号分解为不相关的信号空间和噪声空间，以此消除噪声。这种方法主要利用基于特征值分解的KL 变换对语音信号进行分解，通过对信号失真误差和残留噪声两种判别函数的控制以平衡语音质量和可懂度。也可以将子空间增强算法与人耳的掩蔽阈值结合，基于掩蔽特性的子空间增强算法在主客观上作了良好的折衷，去噪效果明显，且语音出现的同时保留了一定的平滑背景噪声而非突兀噪声，主观感觉较舒适。频域方法这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。（1）谱减法（SS：Spectral Subtraction）是在假定加性噪声与短时平稳的语音信号相互独立的条件下，从带噪语音的功率谱中减去噪声功率谱，从而得到较为纯净的语音频谱。设s(t)为纯净语音信号,n(t)为噪声信号，y(t)为带噪语音信号，则有： y(t) = s(t) + n(t) 傅里叶变换后可得功率谱密度，假定语音信号与加性噪声是相互独立的，则可以由发声前只有噪声时的功率谱得出语音的功率谱，而最后IFFT变换中需要借助相位谱来恢复降噪后的语音时域信号。由于人耳对于相位变化不敏感，且Ephraim Y 和 Malah D 证明在一定条件下语音相位的最小均方误差(MMSE)估计值就是带噪语音相位本身,因此, 基于STSA估计的语音增强方法一般都直接采用带噪语音的相位作为增强语音的相位。但是，语音和噪声的非平稳性会造成谱估计的不完全准确，所产生的音乐噪声严重影响了语音的可懂度，如在进行谱减时，若该帧某频点噪声分量较大，就会有很大一部分噪声残留，在频谱上呈现随机的尖峰，在听觉上形成有节奏性起伏的类似音乐的残留噪声，俗称为音乐噪声。大多语音增强算法在追求减小噪声的同时，也导致较严重的语音畸变度，尽管噪声去除的效果很有效，但语音畸变度很大。采用平滑系数来改进谱减法的做法十分普遍。先验信噪比估计中平滑系数和噪声谱估计中平滑系数较小时，语音畸变和噪声残留都较少，但残留