基于倒谱加权的说话人识别技术.docVIP

下载本文档

7
0
约6.47千字
约 10页
2018-06-01 发布于江西
举报
版权申诉

基于倒谱加权的说话人识别技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于倒谱加权的说话人识别技术.doc

基于倒谱加权的说话人识别技术 2006年5月第儿卷第3期西安邮电学院May.2006 JOURNALOFXIANUNIVERSITYOFPOSTANDTELECOMMUNICATIONSVo1.11No.3 基于倒谱加权的说话人识别技术孙林慧,李平安 (南京邮电大学通信与信息工程学院,江苏南京210003) 摘要:提出一种通过加不同权值来考察语音各阶参数的抗噪性强弱的方法,采用此方法分析了对干净语音和加白噪声语音的Mel倒谱各阶参数加不同权值后对识别系统性能的影响.得出结论:高阶Mel倒谱参数抗噪性较差而低阶倒谱参数抗噪性较好.因此可以根据抗噪性的强弱对该倒谱各阶参数进行合理加权,以便突出抗噪性强的参数对说话人识别系统的贡献. 关键词:权值;抗噪性;Mel倒谱;说话人识别中图分类号:TN912.3文献标识码:A文章编号:1007—3264(2006)03—0009—04 引言说话人识别在相当广泛的领域可发挥重要作用…,如安全保卫领域,司法领域,军事领域,财经领域,信息服务领域等等.正因为如此,说话人识别越来越受到人们的重视.说话人识别系统根据应用分为说话人辨认(SpeakerIdentification)和说话人证实(SpeakerVerification)两种.说话人辨认是对给定的声音,由系统来判断其属于已注册的一群人中的某个特定人,说话人证实则是说话人先声明身份, 然后由系统判断目标声音是不是他所声称的人的. 根据待识别的文本又可以把说话人识别分为与文本有关的说话人识别和与文本无关的说话人识别.前者在训练和识别时采用相同内容的语句,后者在训练和识别时采用不同内容的语句.本文采用文本无关的说话人辨认系统. 一般说话人识别系统包括训练和识别两个阶段,系统的基本结构详见图l.提取语音特征参数的目的在于保留反映说话人个性差异的特征,消除其他冗余信息和无用信息.对说话人识别系统来说,特征参数的提取与选择是一个重要环节.特征参数的提取解决时域语音信号的数字表示问题,而特征参数的选择则通过选取有效的特征为模式划分部分提供数据.特征提取与选择的好坏直接影响到识别器的性能.说话人识别一般都在噪声环境中进行,如果我们可以预先知道各阶参数的抗噪性能,那么就可以通过对它们进行合理的加权处理来有效的选择特征参数,以便突出抗噪性强的参数对识别的贡献.因此关键的问题是通过什么方法来考察各阶参数抗噪性的强弱.本文提出一种通过加不同权值来考察各阶参数的抗噪性强弱的方法. 图1说话人识别系统的基本结构 ,l特征参数 l,1特征参数的鲁棒性说话人识别是一种自动识别说话人身份的过程.说话人识别和语音识别的区别在于,它不注重收稿日期:2005—09—22 基金项目:江苏省高校青蓝工程计划项目(QIA)O3YZ) 作者简介:孙林慧(1979一),女,山西临汾人,南京邮电大学通信与信息工程学院助教. 李平安(1976一),男,山西运城人,南京邮电大学通信与信息工程学院硕士研究生 ? lO?西安邮电学院2006年5月包含在语音信号中的文字符号以及语义内容信息, 而是着眼于包含在语音信号中的个体特征,提取说话人的这些个体信息特征,以达到识别说话人的目的.因此,说话人识别提取的特征参数要能很好的表征说话人个体信息特征.一般情况,说话人识别系统在实验室环境下有很好的识别效果,但在实际的环境下性能下降很多,造成此现象的主要原因是识别与训练条件的误匹配.说话人识别系统中可能引入干扰的因素有:说话人说话方式的变化(如说话人说话速度,音量的变化以及由疾病,情绪引起的变化等),录音环境(如麦克风的变化,背景噪声的干扰)以及传输影响(如传输信道畸变和线路噪声干扰导致误码,传输过程中数据分组丢失)等等.提取鲁棒性的特征参数是目前说话人识别技术的一个热点和难点.寻找具有鲁棒性的参数,要求其满足下述条件: (1)能有效的区分不同的说话人,含有说话人的个性特征; (2)对同一说话人,当说话人说话方式改变时特征参数变化小; (3)抗噪声和信道干扰能力强. 多年来,各国研究者对各种特征参数在说话人识别中的有效性进行了大量的研究,并且得到了许多重要的结论.说话人识别系统中常用的特征可划分为如下几类: (1)线性预测参数及其派生参数:如线性预测参数(LPC:LinerPredictionCoefficient)及LPC倒谱参数(LPCC:LinerPredictionCepstralCoefficient), 声道面积比函数,线谱对参数和部分相关参数等; (2)语音频谱导出的参数:如基音轮廓,功率谱, 共振峰带宽及其轨迹和MEL倒谱参数(MFCC,Mel — FrequencyCepst