基于概率统计模型的说话人确认的研究-信号与信息处理专业论文.docxVIP

下载本文档

10
0
约14.34万字
约 169页
2019-02-20 发布于上海
举报
版权申诉

基于概率统计模型的说话人确认的研究-信号与信息处理专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文摘要摘中文摘要摘要从语音信号中有效地提取个人特征信息进行说话人身份的辨认和确认，是语音识别研究领域的一个重要研究方向。无论从人机界面、身份验证还是信息检索等各个应用方向而言，自动说话人识别都具有广泛的应用前景，其研究具有越来越重要的社会意义和实用价值，因而在国际和国内都受到了极大的关注。自动说话人识别根据说话内容可以分为与文本有关和与文本无关两类。论文对自动说话人识别中的一个重要方面一说话人确认，采用概率统计模型的方法，从与文本有关和与文本无关两个角度，对噪声鲁棒性、参数提取、模型训练以及闽值设置等方面进行了深入研究。对于与文本有关的说话人确认，论文以实用为目标，从系统结构简单、用户注册和使用方便着手，采用基于短语音的方式，围绕如何从短语音中有效提取鲁棒性的说话人特征、如何为说话人建立高性能的背景模型、如何在小训练样本的情况下进行鲁棒性的阈值设置等，对说话人特征参数、建模方法以及阈值设置等进行了较深入的研究。论文深入分析了Mel频率倒谱参数(MFCC)的高阶系数在高斯白噪声下的鲁棒性以及高阶系数选取的最优范围，同时结合动态参数，在相关实验中获得了较好的性能。针对窄带加性噪声干扰，论文提出了子带MFCC特征参数，并建立了+个基于予带隐马尔柯夫模型(HMM)和多层感知机(MLP)的说话人确认系统，不仅解决了不同子带加权融合的问题和确认闽值设置的问题，还使得系统在窄带加性噪声下的鲁棒性得到了较大的提高。论文对基于短语音的说话人确认中的背景模型和阈值设置两个方面提出了改进方法。通过采用高斯混合模型(GMM)作为背景模型，对不可预期的冒认文本有了一定的预测，提高了系统在实用环境下的确认性能。论文还提出了一种基于最小检测代价函数(DCF)的新的鲁棒性确认阈值的设置方法。通过将训练语音分子集，分别用来训练模型和测试评分，然后对评分拟合并重采样，最后根据最小 DCF计算确认闽值，有效地解决了d,N练样本下的确认阈值设置问题。基于以上技术，论文实现了一个基于WwW的与文本有关的远程语音身份认证系统。实际使用环境下的测试表明，该系统具有较高的易用性和安全性。对于与文本无关的说话人确认，论文采用GMM／UBM结构，对说话人确认中中文摘要GMM的训练问题进行了深入分析和探讨，尤其对GMM的区分性训练算法进行中文摘要 GMM的训练问题进行了深入分析和探讨，尤其对GMM的区分性训练算法进行了深入的研究。论文还进一步探讨了语音信号中能够表征说话人个性信息的超音段特征，如人说话时抑扬顿挫的韵律、人说话的速率以及语音文本中的习惯用语等，对它们用于说话人识别进行了·定的研究。论文霉点分析了基于概率统计的况话人模型的理论基础一贝叶斯判决理论，并讨论了其在实际应用中的不足。针对这种不足，提出了一种新的利用分类性能进行指导的区分性训练算法一FOM训练算法，使得GMM的确认性能得到了一定的提高。同时，为了降低训练过程中的结构风险，论文中还提出一种基于线性变换的改进FOM训练算法一LTFOM算法，初步实验结果表明这个算法是较有前途的。由于常规的说话人识别只采用基于声道特征的参数，没有充分利用语音所携带的信息。论文对语音信号所携带的超音段说话人特征，如韵律、语速等，进行了‘定的研究和探讨。将激励源信息(基音频率)及其变化轨迹(韵律) 与MFCC结合用于说话人确认，获得了很好的效果，使系统的等误识率下降了 16％。首次采用通过信号处理的方法提取出的语速进行说话人确认，与基音频率、韵律、MFCC相结合，使只采用MFCC的系统的等误识率下降了19％。论文讨论了作者参与或负责的三项与文本无关的说话人确认评测系统。一是在 2002年度美国国家标准及技术署(NIST)举办的multi—modal说话人识别评测中获得第一名的微软亚洲研究院参赛系统，另外两项分别是中国科大语音信号处理实验室参加2003年度NIST评测中的1-spk和2-spk任务的系统。论文的研究工作得到了国家自然科学基金(NoNo的资助。 ll AbstractIt’8 Abstract It’8 one of the important research fields of speech recognition that using in— formation extracted from the speech signal to perform speaker identification or verification．It has wide application prospects in User Interface，identity authen— tication，