- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究的论文.doc
基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究的论文
摘 要 通过分析当今说话人识别系统中常用的语音特征和基本的说话人识别方法,本文采用多门限多判决的动态时间规整算法作为识别方法,并提取出美尔频率倒谱及其差分、线性预测倒谱及其差分、基音周期、短时谱的临界带特征矢量和子带能量倒谱等多种语音特征进行互相组合,找出了相应于该识别方法的最优特征组合。
关键词 说话人识别;动态时间规整;特征组合
1 引言
说话人识别是语音识别的一个分支,在公安侦察、声控系统、医疗诊断、电子金融业务等方面有着广泛的应用前景。它和语音识别的区别在于,它并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的信息特征。从这点上说,说话人识别是企求挖掘出包含在语音信号中的个性因素。而语音识别是企求从不同人的语音信号中寻找共同因素。
通过分析前人对说话人识别的工作总结,为了进一步提高识别率,本文采用了多门限多判决的改进的动态规整(dynamic time fcc及其差分系数△mfcc、12维的线性预测倒谱参数(lpcc)及其差分系数△lpcc、12维的美尔线性预测差分倒谱系数[1](lpcmcc)、基音周期p及其差分△p、18维的短时谱的临界带特征矢量[1](本文用gl表示)和子带能量倒谱[6](sub-band mfcc,本文用sbc表示)系数及其差分(△sbc)。其中,本文是采用自相关方法提取的基音周期,并运用了二次平滑算法[1]去除了基音轨迹中的“野点”。在提取子带能量倒谱时,本文是将语音信号按照mel刻度在树结构中的多级子带分解为11个子带信号进行计算的。
3 说话人识别方法
3.1 动态时间规整算法
动态时间规整匹配是基于动态规划的思想,解决了发音长短不一的匹配问题,把时间规整和距离测度计算结合起来的一种非线性规正技术,是语音识别中出现较早、较为经典的一种算法。设测试语音参数共有 i 帧矢量,则测试语音模板的特征矢量序列为x=(x1 、x2 、…、xi),参考语音参数共有 j 帧,则参考模板的特征矢量序列为y=(y1 、y2 、…、yj )。且 i≠j,则动态时间规整就是要找到一个时间规整函数 j=atlab6.5作为开发环境,分别针对不同的特征矢量组合做了三类实验。说话人辨认系统的目的是利用机器自动辨认出待识别的语音是来自待考察的人员中的哪一个,判断待识别语音所属的说话人的身份。
实验一:每人每遍说相同内容的一段5秒内的语句,语音材料为朗读报刊杂志中的一到两句话,共录制4遍,不同的人说不同的语音内容。先分别单独使用提取出的语音特征作为特征矢量用dtfcc及△mfcc同p及△p组合和lpcc及△lpcc与p及△p的组合,收到的效果最好。这是因为美尔倒谱参数mfcc充分利用了人耳感知系统特性计算出来的特征参数,符合人耳听觉特性,并且能很好的反映语音内容;同时基音周期p描述了说话人个性语音中最基本的信息,而△mfcc和△p则分别是反映了人耳听觉特性的动态特征和基音周期变化的动态特征,这样将说话人语音的静态特征与动态特征相互组合进行文本相关的说话人辨认,效果最为理想。而lpcc及 lpcc与p及 p的组合特征,是结合了反映说话人声道的静态及动态特性的线性预测倒谱及其差分与基音周期的动静态特征,同样在说话人辨认实验中达到了理想的识别结果。
本实验还利用了短时谱分析得到的短时谱临界带特征矢量同p及△p进行组合。在辨认系统中也得到了较好的效果,正识率达到了93.3%。而子带能量倒谱的效果并不如理想中好,原因可能是子带的分段数过少,提取过程还不够精确。
由辨认实验三可以看出,当说话人在参考模板和测试模板中说不同内容的语音时,各种特征组合所得到的识别结果都不理想,说明用动态时间规整算法进行文本无关的说话人识别,效果并不理想。
同时,我们发现当拒绝门限或接受门限设得过高时都会使错误接受率降低,但这样就增高了错误拒绝率,这对于安全系数要求不高的场所(例如,大量使用者利用电话访问公共数据库)会造成用户的不满。因此应该根据不同的使用场合设定门限值。而说话人辨认系统的识别率不仅与门限设置有关,还与识别的人数多少有关,人数越多,识别率越低,所用的计算时间也逐渐增长。
5 结束语
由上面所得的实验结果可以证明,利用改进的多门限多判决dt].北京:机械工业出版社,2003.
[2] 程利忠, 张宪民. 基于语音识别的说话人身份辨识系统.上海交通大学学报,1998,32(9):86~89.
[3]李蕴华.将倒谱参数与基音信息有效结合进行说话人辨认[j].信号处理, vol.16 , 2000. 3 : 85-89 .
[4] zhanga zh i-you, feature bination for speaker identificatio
文档评论(0)