- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进MFCC和VQ识别说话人识别系统
基于改进MFCC和VQ识别说话人识别系统
1.说话人识别概述
说话人识别是指对一段语音进行处理,确定该段语音是谁所说,或者是否是某个人所说。根据识别系统的职能。由于在安全访问控制,身份自动鉴别相关领域的现实意义以及现代设施的硬件支持,近年来说话人识别系统得到了社会以及各种企业的大量关注和研究,近年来,随着Internet和计算机通信行业的迅猛发展,说话人确认系统正广泛应用到Internet的访问控制,计算机认证和无线电话认证等领域。
通过组合MFCC和基音周期特征参数的方法,来提高系统的识别率,但是组合的特征参数缺少动态特性,在噪声等外界干扰下,系统的识别率容易受到影响[1]。文献2通过提取MFCC特征参数然后对其进行加权,能够提高系统识别率,但是仍然没有使用动态特性,缺乏抗干扰性。文献3提出了一种基于MFCC系数分析和仿生模式识别的语音识别方法,该方法旨在减少计算量并且提高识别率。虽然取得了一定的效果,但是仿生模式的识别方法仅适用于小词汇量的语音识别中。
本文通过提取MFCC的一阶差分特征参数,并且与原参数进行组合,提高了特征参数的动态特性,使参数有更好的鲁棒性和更强的抗噪能力,然后对参数加权可以使识别率得到进一步提高,最后采用矢量量化识别,该方法既减少了计算量,并且适用于更广泛的语音识别中。
2、系统描述
本文说话人识别系统在对原始语音提取MFCC参数、MFCC一阶差分参数并且对其进行矢量加权。说话人识别系统的框架,包括语音输入、特征参数提取、模型建立以及相似度比较。说话人识别系统分为两个部分:训练部分和识别部分。现阶段主要研究的是特征提取部分、说话人识别模型建立部分。
2.1改进的MFCC特征参数
本文改进的MFCC参数的提取和计算过程如下,因为标准MFCC参数只反映语音参数的静态特性,MFCC的差分参数反映的是动态特性,而人耳对语音的动态特性更加敏感,本文在MFCC的基础上在最后计算一阶差分倒谱系数反映语音动态的变化,然后与原有MFCC参数进行组合,得到新的24维的组合特征参数。
2.2 VQ识别过程
矢量量化(Vector Quantization,VQ)具有良好的分类特性,能够通过对长时语音特征参数统计信息的量化来区分不同的说话人,并且可以减少数据量,使用该方法建立识别模型,能有效减少数据存储量和计算量。
VQ的关键是设计一个矢量化分类器来对输入的信息进行分类。在训练阶段,采用LBG算法,由说话人语音的训练样本序列,前面所述的12维MFCC参数和12维一阶差分参数作为特征矢量,聚类生成不同码字组成的码书,每个说话人都对应一个码书,每个码书具有M个码字。这些码书在特征空间的分布相互不重叠或者重叠但是有较好的区分度。
2.3特征参数加权
由于用矢量量化的方法仅仅得到说话人语音特征在特征空间的聚类中心,而忽略了特征参数矢量每一维分量对识别的贡献大小,也就是说只描述了特征空间的形状,而没有顾忌具体参数分量对不同说话人的区分程度,因此这种模拟比较粗糙。通过对参数的加权,可以增强说话人的区分程度,减少这种粗糙程度,因此本文对前文提取出的各特征参数矢量进行加权处理,改进的方法如下:令,其中a(t)表示第t维分量的加权系数,P是特征矢量的维数。
3、实验结果
实验中采取录音的方式来获得声音文件,总共有15个不同人声音的wav文件,录音采用12.5k采用率,16bit采样精度,在普通实验室环境下进行,录音人员随便读任何文字,每个人读不同的文字两遍,一次用来作为训练数据,一次用来作为测试数据。在参数提取时取帧长为256个采样点,帧移是100个采样点,提取12阶MFCC和12阶一阶差分MFCC结合作为特征矢量,用LBG算法训练码书。识别采用相同算法生成特征矢量,然后计算与码本之间的距离,根据改进公式作为距离测度。
实验结果中采用MFCC特征参数,码书大小为16时,识别率为66.71%,而采用加权MFCC时识别率稍有提升。当码书大小升为64时,识别率达到87.32%。本文所改进的加权MFCC与一阶差分MFCC参数的结合识别率达到了94.53%。
实验结果表明,Mel频率倒谱系数(MFCC)能很好的反应说话人的个体特征,在不同码书大小的环境下,对不同的参数进行加权以后提高了一些识别率,MFCC与一阶差分MFCC参数(MFCC)的结合比单一MFCC特征参数识别率高出很多,尤其是在码书比较小得时候提升效果更佳明显。该系统VQ矢量技术的使用,有效减少了整个说话人识别系统在训练跟识别时的计算量。
4、总结
本文在MFCC基础上,提取了一阶差分MFCC,并将他们进行组合,有效的利用了静态与动态的参数特征,然后通过加权的方法,提高识别效果
文档评论(0)