一种多频率加权的语音mfcc参数识别.docxVIP

下载本文档

7
0
约4.11千字
约 4页
2023-10-08 发布于广东
举报
版权申诉

一种多频率加权的语音mfcc参数识别.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种多频率加权的语音mfcc参数识别 1 噪声环境下的噪声鲁棒性在低噪声环境下的语音中，说话者识别可以达到相当高的识别率，但噪声的存在将显著降低说话者识别的性能。提高说话人识别算法的噪声鲁棒性非常重要。目前常用于提高噪声环境下语音识别性能的算法可分为3类:模型补偿、语音增强和抗噪声的语音特征。其中,模型补偿是根据噪声本身特征,对纯净语音模型参数进行修正,以补偿训练环境与工作环境之间的差异,使修正后的语音模型与带噪语音的实际分布尽量接近。语音增强是将噪声环境下的语音进行恢复,尽可能得到受噪声污染前的语音。对于这2类方法在使用时有一个共同的不便,即需要具有噪声先验知识,而实际运用时常常不能预知噪声种类。没有准确的噪声特征估计,这些方法的优越性就没法较好地得到体现。而抗噪声的语音特征提取能较好地弥补这个缺陷,因为抗噪声的特征参数不用预先知道噪声特征,而是通过寻找一种对噪声影响不敏感的语音特征参数来提高说话人识别性能,因此能适用于各种噪声环境。Mel频率倒谱系数(MFCC)是目前在说话人识别中应用最广泛的特征参数之一,它能通过较好地模拟人耳听觉系统提取语音特征,在纯语音情况下它能获得相当高的识别率。但是该参数对噪声较敏感,在噪声环境下性能会大大降低。本文将根据MFCC参数的特征,即Mel频率与线性频率的对数关系,基音同步预处理的特点以及噪声的频率属性,提出高频加权MFCC方法以提高该参数噪声鲁棒性。为验证该方法的有效性,使用NTT语音库进行了说话人确认实验。 2 mel频率与线性频率的转换人耳对不同频率的语音有不同的感知能力,实验发现,感知能力与线性频率在1 000 Hz以下成线性关系,而1 000 Hz以上成对数关系,Mel频率体现了这种感知特性。1 Mel为1 000 Hz的音调感知程度的1/1 000。线性频率f与Mel频率之间的转换关系为: Mel(f)=2595log10(1+f700)(1)Μel(f)=2595log10(1+f700)(1) 图1显示了这两者之间关系。f为线性频率,单位为Hz,B为Mel频率,单位为Mel。从图1可看出,Mel频率实际上是在有限的频率阈空间适当扩大低频部分分辨率,这正是人耳接收语音信号时的感知特性,但这是以牺牲高频部分分辨率为代价的。也就是说Mel频率分辨率会随着频率的增加逐渐减小,这削弱了Mel频率域在高频部分不同频率带的频谱差异,对其后的特征参数产生不利影响。 3 基音同步预处理前后语音高频部分的频谱距离测试由于MFCC参数是对语音频率域上的能量进行描述,所以分析语音的频谱距离非常重要。在文献中,将短时语音s(n)截为语音起始点基音周期整数倍以内部分sp(n)和余下的sr(n)两部分,并且只保留sp(n)部分作为分析帧。这样可以使被用于提取特征的语音更稳定,同时保留更多分析帧的语音信息。若两段语音分别为s(n)、t(n),它们的频谱距离为: D(S,T)=∫π?π[log|S(ω)|?log|T(ω)|]dω(2)D(S,Τ)=∫-ππ[log|S(ω)|-log|Τ(ω)|]dω(2) 只保留语音中具有完整周期性部分sp(n)和tp(n),则频谱距离为: D(Sp,Tp)=∫π?π[log|Sp(ω)|?log|Tp(ω)|]dω(3)D(Sp,Τp)=∫-ππ[log|Sp(ω)|-log|Τp(ω)|]dω(3) 实际上,传统的固定窗长加窗常使具有周期性的语音信号在非周期长度处被截断,导致不同程度的谐波泄漏,使用基音同步预处理后的语音会保留更多的高频信息,并且语音高频部分频谱失真能够比低频部分更加稳定地减小。图2是10名说话人(5名男性,5名女性)在使用基音同步预处理前后的频谱距离测试实验结果。每名说话人随机选取一段短时语音作为s(n),另随机选取200段短时语音作为t1(n)、t2(n)、…、t200(n)。首先计算每人未使用基音同步预处理的语音频谱距离: D1(S,T)=∑j=1200[∫π?π(log|S(ω)|?log|Tj(ω)|)dω](4)D1(S,Τ)=∑j=1200[∫-ππ(log|S(ω)|-log|Τj(ω)|)dω](4) 式中:S(ω)、Tj(ω)分别为s(n)、tj(n)的频谱。之后计算每人使用基音同步预处理后的频谱距离: D2(S,T)=∑j=1200[∫π?π(log|Sp(ω)|?log|Tpj(ω)|)dω](5)D2(S,Τ)=∑j=1200[∫-ππ(log|Sp(ω)|-log|Τpj(ω)|)dω](5) 式中:Sp(ω)、Tpj(ω)分别为sp(n)、tpj(n)的频谱。同时分别计算语音高频(4 000～8 000 Hz)与低频部分(0～4 000 Hz)在使用基音同步预处理方法前后的频谱距离,结果如图2所示。