- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于声纹认证语音识别系统
基于声纹认证语音识别系统
摘 要:随着计算机技术、电子信息技术的不断发展,适用于不同场合的识别技术相继被开发出来,其中语音识别技术最为方便快捷,并且在计算机、信息处理、自动化控制等发面得到广泛的应用。作为方便快捷的信息安全保护方式,语音识别技术在政府部门、商业机构和日常生活中很受人们欢迎。线性预测倒谱系数和梅尔倒谱系数是语音识别中最常用的两种特征参数,本文分别讲述了他们的提取方法,并且用余弦相似度算法对提取的特征参数进行处理,训练并且建立模型,同时也能用于语音识别判决方式。
关键词:LPCC;MFCC;余弦相似度;语音识别
1 线性预测倒谱系数(LPCC)
1.1 线性预测倒谱系数基本思想
由于语音抽样点之间存在相关性,所以可以用过去的样点值来预测现在或者未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或他们的线性来逼近。通过是实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特征,可以作为语音信号特诊参数用于语音识别,语音合成等。
1.2 LPCC参数提取
1.2.1 预加重、分帧、加窗
预加重处理其实就是将信号通过一个高通滤波器:
预加重可以提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。
分帧即为将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,并且能使基音峰清晰突出。假设分帧后的信号为S(n), n=0,1…,N-1, N为帧的大小,那么乘上汉明窗后 ,W(n)形式: ,不同的a值会产生不同的汉明窗,一般情况下a取0.46。
1.2.2 LPC复倒谱
LPC系数是线性预测分析的基本参数,可以吧这些系数变换为其他参数,以得到语音的其他代替表示方法。设通过线性预测分析得到的声道模型系统函数为:
其冲激响应为 ,设 表示的 复倒谱,则有:
将H(z)代入并将其两边对z-1求导数,有:
令上式左右两边的常数项和z-1各次幂的系数分别相等,从而可由ak求出 :
按上式求得的复倒谱 就是线性预测倒谱系数。
1.3 LPCC的缺点
线性预测倒谱系数的识别效率低,收敛速度慢,对环境干扰的抗噪声能力差,鲁棒性差。
2 梅尔倒谱系数(MFCC)
2.1 MFCC概述
梅尔倒谱系数就是组成梅尔频率倒谱的系数。这种参数模型,利用了人耳听觉机理――掩蔽效应,在从低到高的频带内,安排一组由密到疏的带通滤波器,对输入信号进行滤波。并且,将每个滤波器的输出能量作为信号的基本特征,对此特征进一步处理得到语音的输入特征。这种特征不依赖信号的性质,对输入信号不做任何的假设和先知,比LPCC具有更好的鲁棒性。
2.2 梅尔频率域线性频率的关系
2.3 MFCC参数提取
2.3.1 预加重、分帧、加窗
过程同LPCC参数提取。
2.3.2 快速傅里叶变换
时域信号很难分析其能量分布规律,通常采用傅里叶变换,在频域进行分析。对第n帧语音信号xn(m)进行傅里叶变换定义如下:
2.3.3 MEL滤波器组
MEL滤波器组实际上是一组从低频到高频由密到疏的三角滤波器组,实验发现,人耳只关注某些特定的频率分量,并且对低频感受比高频更加敏感,MEL滤波器组通过这样的滤波方式保留了有效的声音信息,减小了冗余度。
2.3.4 对数运算
通过对数运算,可以计算每个滤波器组的输出能量:
2.3.5 离散余弦变换(DCT)
通过DCT可以计算得到MFCC系数:
所求的的系数就是这帧语音对应的特征。
3 利用余弦相似度算法判决
3.1 概述
余弦相似度,又称为余弦相似性。通过计算两个向量之间的夹角的余弦值,来表征这两个向量的相似性,夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
3.2 计算
对于二维空间,假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:
到多维:
3.3 性质
余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0,他们的方向更加一致。相应的相似度也越高。
3.4 应用
在基于声纹认证的语音识别系统中,建立一个训练集,训练集内的语音信号两两计算余弦相似度,设定一个阈值,超过该阈值的语音信号则提示与其他误差偏大,需重新采样。通过这种方法保证了通过训练集建立出的模型的精确度。在测试集与已建立模型比较式,若余弦相似度超过阈值,则表明语音不能
文档评论(0)