- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基本语音增强方法概述
摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种
基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺
点作简要论述。
关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间
现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤
为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的
掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端
尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱
减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。
一、语音的特性
语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动
紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音
信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,
从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利
用短时频谱的平稳特性。
人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的
声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳
的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被
人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰
信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别
重要了。
二、时域方法
此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参
数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如
果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较
困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳
滤波器、卡尔曼滤波器等。
(1)经典的维纳滤波法是根据Winer-Hopf积分方程求出纯语音和混合音
的传递函数来实现语音增强目的的。经典的算法常常只通过计算无声期间的统计
平均来估计噪声功率谱,这是假设噪声的功率谱在发声前和发声期间基本没有变
化前提下的,这样的估计和假设显然是不够全面的。另外,经典的算法能有效地
抑制变化范围不大或是稳定的噪声,但是对实际中的变化范围很广的噪声效果不
是很好。当然,也有很多改进的维纳滤波法,比如:计算无声段的统计平均得到
初始噪声功率谱功率谱、计算语音段间带噪语音功率谱,并平滑处理初始噪声功
率谱和带噪语音功率谱,更新噪声功率谱。也可以将维纳滤波扩展为卡尔曼滤波,
适用于非平稳过程。
(2)子空间增强算法是将语音信号看成K维向量空间,并将带噪信号分
解为不相关的信号空间和噪声空间,以此消除噪声。这种方法主要利用基于特征
值分解的KL变换对语音信号进行分解,通过对信号失真误差和残留噪声两种判
别函数的控制以平衡语音质量和可懂度。也可以将子空间增强算法与人耳的掩蔽
阈值结合,基于掩蔽特性的子空间增强算法在主客观上作了良好的折衷,去噪效
果明显,且语音出现的同时保留了一定的平滑背景噪声而非突兀噪声,主观感觉
较舒适。
三、频域方法
这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方
法主要包括谱减法、自适应滤波法等。
(1)谱减法(SS:SpectralSubtraction)是在假定加性噪声与短时平
稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而
得到较为纯净的语音频谱。
设s(t)为纯净语音信号,n(t)为噪声信号,y(t)为带噪语音信号,则有:
y(t)=s(t)+n(t)
傅里叶变换后可得功率谱密度,假定语音信号与加性噪声是相互独立的,则
可以由发声前只有噪声时的功率谱得出语音的功率谱,而最后IFFT变换中需要借
助相位谱来恢复降噪后的语音时域信号。由于人耳对于相位变化不敏感,且
EphraimY和MalahD证明在一定条件下语音相位的最小均方误差(MMSE)估计
值就是带噪语音相位本身,因此,基于STSA估计的语音增强方法一般都直接采
用带噪语音的相位作为增强语音的相位。
但是,语音和噪声
文档评论(0)