- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基音周期与声门特征在说话人识别中的应用
说话者id(sr)也称为说话者id,它是指通过分析说话者的声音信号来自动确认说话者的技术。其综合了生理学、语音学、数字信号处理、模式识别、人工智能等学科知识的一个研究课题,以独特的方便性、经济性和准确性等优势,在相关领域内发挥着重要作用,并有着广阔的市场应用前景。
1 判别基于语音特点的判别基于语音的身份模型
说话人识别的基本原理,是利用说话人的语音为每个说话人建立一个能够描述此说话人特点的模型,作为此说话人语音特征参数的标准模板,然后针对测试的语音信号进行比对,实现判别说话人身份的目的。说话人识别的原理框图,如图1所示。
1.1 语音信号特征
人的发声器官由3部分组成:(1)肺和气管产生气源。(2)喉和声带组成声门。(3)由咽腔、口腔、鼻腔组成声道。空气由肺部排入喉部,经声带进入声道,最后由嘴辐射出声波,这就形成了语音。当发不同性质的语音时,激励和声道的情况不同,其对应的模型也不同。根据提取的算法不同,将语音信号特征可分为声门特征、声道特征。语音信号是一维时域信号,具有简单易懂、清晰直观、便于计算等优点,基于声门特征的分析是最早应用于说话人识别的方法之一,而基于声道特征的分析是目前说话人识别中识别效果较好的方法。
1.1.1 基于差异的识别
由于声带振动的不同,对应于声带之间切口形状时变区域的变化,即为声门。研究显示,通过声门声带流的差异反映了声带张开闭合的速率、声带在通常情况下的形状以及声带振动时刻的宽度和速调范围;与基于声道性质的倒谱特征一样,说话人生理上这些固有的特征也具有个体差异,因而可以在说话人识别系统中用于区分说话人。基于声门特性的基本说话人识别特征主要包括:
(1)基频:浊音信号是一种准周期性信号,其周期称为基音周期。语音上的基音高低决定于声带的长短、松紧、厚薄。长、松、厚的,基音就低;短、紧、薄的,基音就高。鉴于对人生理特性的良好表现力,以及较传统倒谱特征优良的环境鲁棒性,基音周期被广泛应用于说话人识别中。目前基音周期的估计算法主要有自相关法、平均幅度差函数法、并行处理法、倒谱法、简化逆滤波法、小波变换法等。
(2)能量:语音的能量通常指的是语音的短时能量,它反映了语音信号的强度;同时,语音能量的变化反映了语音信号停顿以及重音所在。
(3)语音速率:语音速率指单位时间内发出音节的个数,它反映了说话人发音的快慢。由于音素的知识与语音识别紧密相关,因而在文本无关的说话人识别中,语音速率特征使用的并不多。
1.1.2 改进的识别参数
人在说话的时候,声门处气流冲击声带产生振动,然后通过声道响应变成语音。数字化的语音信号是声道频率特性和激励信号源二者的共同结果,后者对于某帧而言常带有一定的随机性,而说话人的个性特征一定程度上体现在说话人的发音声道变化上,即声道特征可以更好地对说话人进行识别。基于声道的特征主要有:
(1)美尔倒谱系数(Mel-frequency Cepstral Coefficients,MFCC),是基于听觉系统的临界带效应、在Mel标度频率域提取出来的一种倒谱参数,它能够比较充分利用人耳这种特殊的感知特性,这种特征具有比较强的鲁棒性,得到了广泛应用。近年来,学者们为提高识别率,在MFCC特征的基础上,提出了一些改进参数,如:△MFCC、DMFCC、MFSC、FMFCC等。其中一阶差分系数△MFCC以其能够拟合人发声和人耳听觉的动态特性的优点,和MFCC结合后能得到很好的应用和识别效果。
(2)线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC),1947年维纳首次提出了线性预测这一术语,而板仓等人在1967年首先将线性预测技术应用到了语音分析和合成中。LPCC是最早被应用到语音识别中的一种倒谱参数,其主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,计算量小,并且对元音有较好地描述能力,而且往往只需要十几个倒谱系数就能较好地描述语音的共振峰特性,因此在说话人识别中得到了良好的应用。
考虑到单独使用某种特征所存在的问题,越来越多的说话人识别系统开始将声门特征与基于声道特征的倒谱特征相结合,以进一步提高说话人系统性能,而如何将这两种特征有效地结合起来成为目前的一个热门话题。通常融合的方法是将声门信息特征线性叠加到同一帧的倒谱特征,以形成维度更高的语音特征;或者分别在倒谱特征系统和声门特征系统中进行识别,然后将它们的得分进行加权组合,利用声门信息特征和倒谱特征在区分说话人上的互补性,有利于提高系统性能,对说话人识别技术是一个重大突破。
此外,研究者为提高说话人识别系统的性能,提出对特征进行变换的方法,以降低特征的维数和计算的复杂度。主要的特征变换方法有:主成份分析法(PCA)、线性判别分析
原创力文档


文档评论(0)