数字串语音和对电话语音的说话人确认的研究.pdfVIP

下载本文档

7
0
约16.16万字
约 134页
2016-01-13 发布于四川
举报
版权申诉

数字串语音和对电话语音的说话人确认的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数字串语音和对电话语音的说话人确认的研究

中国科学技术人学博士论文中文摘要摘要从语音信号中提取出个人性特征信息进行说话人身份的确认，是语音识别研究领域的一个重要研究方向。由于用于标志个人身份的ID代码使用十分广泛，它们大多具有数字串的形式，因而通过限定在数字范围内的任意数字串的语音进行说话人确认具有广泛的应用价值。由于说话人确认系统在使用中需要考虑较复杂环境(背景噪声和传输通道特性)以及训练与测试环境失配对其的影响，同时因为实际语音中常常包含不止一个说话人(如对话语音)，因此，研究实用环境下、对话电话语音的说话人确认也具有重要的理论意义和应用价值。本文对两种具有实用背景的语音输入方式一一数字串语音和对话电话语音的与文本无关的说话人确认进行了研究，并针对两种方法实现中的关键问题，进行了深入的研究和探讨。数字串语音的与文本无关的说话人确认，对于语音长度在几秒以内的短语音的任意数字串的说话人确认，我们采用了基于语音识别和说话人确认的两级识别机制，以及基于关键数字的多子系统结构策略。利用非限定人语音识别器对输入语音进行识别并切分出其中用于与文本有关的说话人确认的基元，为多个基元分别构造说话人确认子系统，并对它们的输出评分综合判决。针对非限定人的语音识别，提出了一种新的隐马尔可夫模型结构一一并行HMM (PHMM)。它由多条并行的马尔可夫链组成，从而将基于分类的多个HMM融台于一个模型中，并行的各条链之间还允许有交叉，使得融合的多模板之间存在状态共享。同时PH删可以在训练过程中自动完成聚类，无需聚类分析和类别判断，从而减少了存储量和计算量a其测试语音的输出结果来自于所有类别的综合结果，因而使识别性能得到了很大提高，且有较好的噪声鲁棒性。针对连接数字串的语音识别，研究了从数字串语音中训练出单个数字模型的训练问题，以及数字串和模型之间高效、实时的匹配问题。提出了一种基于帧间相关特性和汉语音节组成规则的数字串的音节切分方法，解决了初始模型的训练问题，在此基础上训练出的模型具有更优的性能。而针对匹配问题，在详述了两种主要的连续语音匹配算法一一LB算法和One—Pass算法之后，讨论了一种结合时长信息的 One—PaS S算法。中国科学技术大学博士论文中文摘要研究了，基于多个关键数字的与文本有关的说话人确认方法，提出了以模型间的距离测度为准则来选择说话人的关键数字，而为计算模型问的距离测度，采用了计算KLD上限的方法。通过实验对比表明了此准则的可行性和计算KLD上限方法的有效性。对话电话语音的与文本无关的说话人确认，对于传输通道和背景多变的复杂环境下的电话语音的说话人确认，目前采用语音长度较长(1分钟以上)的基于G删一UBM 框架的确认方法。而针对NIST对话电话语音说话人评测(2一speaker)任务，我们通过对话语音的切分和分类以分割出目拆说话入的语音，从而实现与文本无关的说话人确认。论文讨论了在较复杂环境及训练与测试语音环境失配的情况下，仍具有较好鲁棒性的GMM—uBM结构。并分析了为解决模型高混合度时目标说话人训练数据不足的问题，和改善UBM、说话人GMM两种模型训练时不匹配的状况，而采用的UBM-MAP 技术，它使GMM—USM框架结构具有更好的确认性能及对环境的鲁棒性。研究了用于对话语音的切分和分类的基于距离测度的无监督语音分割算法，并详细讨论了基于GLR和持续时间相结合的相似性测度，这种概率距离测度利用假设检验的似然比来描述两个语音段之间的相似性，能较好地检测出绝大部分的说话者改变点，且计算代价也较低。和第二，仅次于MIT的Linc01n实验室和IBM研究院。论文研究工作得到国家自然科学基金(No、安徽省自然科学基金 (No和国家自然科学基金(No的资助。中国科学技术大学博士论文英文摘要 Abstract one It’S ofthe researchfield