基本语音增强方法 .pdfVIP

下载本文档

0
0
约3.98千字
约 5页
2024-11-25 发布于河南
举报
版权申诉

基本语音增强方法 .pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基本语音增强方法概述

摘要：语音增强是当今语音处理的一个非常重要的领域，本文主要介绍当今比较普遍的几种

基于人耳掩蔽阈值的语音增强方法：谱减法，维纳滤波法，子空间方法等，并对它们的优缺

点作简要论述。

关键词：语音增强、人耳掩蔽、谱减法、维纳滤波、子空间

现今时代的主流步伐将我们带向自动化方向，语音识别在这一背景下显得尤

为重要。目前已经开发出好几款语音识别软件，但是如何较为精确地实现人耳的

掩蔽效应下的语音增强，仍是大家着重解决的问题。它的首要目标就是在接收端

尽可能从带噪语音信号中提取纯净的语音信号，改善其质量。目前已经出现了谱

减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。

一、语音的特性

语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动

紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音

信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,

从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利

用短时频谱的平稳特性。

人耳在嘈杂的环境中，仍然能够清晰地听到自己想听的内容，一个较弱的

声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳

的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值，或者说在安静环境中能被

人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候，由于干扰

信号和目标信号的强度差别不大，导致机器无法识别。这时语音增强就显得特别

重要了。

二、时域方法

此类方法主要依赖于语音生成模型(例如AR模型)的使用，需要提取模型参

数(如基音周期、LPC系数等)，经常使用迭代方法。这种方法的最大缺点就是如

果实际噪声或语音与模型有较大的差别，或者由于某些原因使得提取语音参数较

困难，则这方法较容易失败。这类方法常用到一些滤波器，如梳状滤波器、维纳

滤波器、卡尔曼滤波器等。

（1）经典的维纳滤波法是根据Winer-Hopf积分方程求出纯语音和混合音

的传递函数来实现语音增强目的的。经典的算法常常只通过计算无声期间的统计

平均来估计噪声功率谱，这是假设噪声的功率谱在发声前和发声期间基本没有变

化前提下的，这样的估计和假设显然是不够全面的。另外，经典的算法能有效地

抑制变化范围不大或是稳定的噪声，但是对实际中的变化范围很广的噪声效果不

是很好。当然，也有很多改进的维纳滤波法，比如：计算无声段的统计平均得到

初始噪声功率谱功率谱、计算语音段间带噪语音功率谱，并平滑处理初始噪声功

率谱和带噪语音功率谱，更新噪声功率谱。也可以将维纳滤波扩展为卡尔曼滤波，

适用于非平稳过程。

（2）子空间增强算法是将语音信号看成K维向量空间，并将带噪信号分

解为不相关的信号空间和噪声空间，以此消除噪声。这种方法主要利用基于特征

值分解的KL变换对语音信号进行分解，通过对信号失真误差和残留噪声两种判

别函数的控制以平衡语音质量和可懂度。也可以将子空间增强算法与人耳的掩蔽

阈值结合，基于掩蔽特性的子空间增强算法在主客观上作了良好的折衷，去噪效

果明显，且语音出现的同时保留了一定的平滑背景噪声而非突兀噪声，主观感觉

较舒适。

三、频域方法

这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方

法主要包括谱减法、自适应滤波法等。

（1）谱减法（SS：SpectralSubtraction）是在假定加性噪声与短时平

稳的语音信号相互独立的条件下，从带噪语音的功率谱中减去噪声功率谱，从而

得到较为纯净的语音频谱。

设s(t)为纯净语音信号,n(t)为噪声信号，y(t)为带噪语音信号，则有：

y(t)=s(t)+n(t)

傅里叶变换后可得功率谱密度，假定语音信号与加性噪声是相互独立的，则

可以由发声前只有噪声时的功率谱得出语音的功率谱，而最后IFFT变换中需要借

助相位谱来恢复降噪后的语音时域信号。由于人耳对于相位变化不敏感，且

EphraimY和MalahD证明在一定条件下语音相位的最小均方误差(MMSE)估计

值就是带噪语音相位本身,因此,基于STSA估计的语音增强方法一般都直接采

用带噪语音的相位作为增强语音的相位。

但是，语音和噪声

您可能关注的文档

文档评论（0）

heart131 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基本语音增强方法 .pdfVIP