- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
说话人识别的研究的现状
说话人识别的研究的现状
摘要:说话人识别技术在我们日常生活中已经得到了广泛的应用,说话人识别作为当前最热门的生物特征识别技术之一,在远程认证等领域有着独特的优势,受到了越来越多的关注。本文从说话人识别的特征提取和说话人建模两部分展开,对说话人识别的研究现状和技术进展进行了阐述。
关键词:说话人识别;特征提取;说话人建模
中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2017)06-0059-03
1 概述
说话人识别技术是一种探索人类身份的一种生物识别技术,每个人说话时使用的发音器官例如口腔、舌头、牙齿、声带、喉咙和鼻腔等不管在形态还是在尺寸上或多或少都会有所差异,因而导致了每个说话人的发音也各不相同[1]。
按照不同的分类角度分类,说话人识别大致分为以下几类。
从实际应用的范围角度分,可以分为说话人辨认和说话人确认。前者是指判定待测试语音属于目标说话人模型集合中的哪一个人,是一个多元判别的问题;而说话人确认是确定待测试语音是否来自其所声称的说话人,是一个二元判决的问题。对于说话人辨认来说,由测试来自不同说话人的范围,说话人的辨认又可以开集识别和闭集识别[2]。
从待识别语音对应的文本角度分类,说话人识别可以分为文本无关、文本相关和文本提示三类。文本无关是指说话人识别系统对说话对应的文本是开放的,即不做内容要求,在训练和识别时说话人可以随意录制语音内容只需达到一定的长度即可;文本相关是指说话人识别系统会要求说话人必须按照指定的文本进行发音录制;而对于文本提示型说话人识别系统,是结合之前两者的优点,系统需要从说话人训练文本库随机提取一些字或词汇组合后提示说话人按照该文本进行发音录制,由于其实现简单、安全性高,成为目前说话人识别技术的一大热点。
2 说话人识别的研究现状
从说话人识别的发展来看,二十世纪七十年代DTW和VQ技术的出现对当时识别性能有了较大提升,而八十年代应用到说话人识别中去的人工神经网络、隐马尔可夫模型和MFCC一直沿用至今并且一直被优化改进。到九十年代GMM以及GMM-UBM以其简单灵活、鲁棒性强的特点,在说话人识别中被广为使用,到现在也是这个领域最重要的建模技术之一,与此同时,SVM的建模技术也被引入说话人识别中。进入二十一世纪后,联合因子分析技术(JFA)和扰动属性干扰算法(NAP)的提出使得说话人识别在复杂背景条件下也能取得较好的效果。另外,得分规整技术ZNORM、TNORM等的运用也使得说话人识别系统性能有了较大程度的提高。由JFA建模思想得到启示,Najim Dehak等人提出了基于总体变化因子向量(identity vector,i-vector)的说话人建模方法,这是该研究领域的前沿主流技术。
说话人识别是一个模式识别问题,其框架主要包括两个阶段,训练阶段和识别阶段。训练阶段是系统对说话人收集足够的语音数据,基于数据对不同说话人的语音特征进行提取,再根据这些提取的特征训练得到对应的说话人模型,最后将所有的模型整合成系统所需的模型库。识别阶段是系统对说话人传入的语音数据进行识别时,系统对传入数据进行与训练阶段相同的特征提取,并对提取到的特征与模型库中的特征进行对比,进行相似性计算得出模型相似性分数,最终根据得分来判断说话人属于哪个模型得出说话人是谁的结论。
关于说话人识别的技术的现状主要可以从以下两部分进行讨论:特征提取和说话人建模。
2.1 特征提取
特征提取是减小语音数据量和排除冗余信息的一个过程,常用的说话人特征有线性预测倒谱系数(LPCC)和梅尔倒谱系数(MFCC)。
2.1.1 线性预测倒谱系数
LPCC是模拟声道的效应,把声道冲击和声门激励分离开来,并利用线性预测原理,将一个语音信号用过去若干个采样的线性组合来表示。LPCC一般与其他特征参数进行组合研究,很少单独出现。
2.1.2 梅尔倒谱系数
MFCC是基于听觉系统的临界带效应,在Mel标度频率域提取的一种倒谱参数,其充分利用了人耳的感知特性使得该特征具有较好的鲁棒性。
近年来,学者们在MFCC的基础上又提出了一些改进的参数来提高识别率,例如:△MFCC、DMFCC、MFSC和FMFCC等。其中一阶差分系数△MFCC以其能够拟合人发声和人耳听觉的动态特性的优点,和MFCC结合后能得到很好的应用和识别效果[3]。另外,还有学者提出了将MFCC与LPC特征得分归一化后融合计算的方法,这种方法对于患有感冒的说话人辨认性能有较好的提升[4]。
对于MFCC参数的改进,还可以一方面在传统算法上加入端点检测,去除与?f话人语音特征无关的静音段[5]。另一方面用高斯滤波器组代替三角滤波器组进行频率到M
文档评论(0)