语种识别深度学习方法研究-信号与信息处理专业论文.docx

下载文档 降价啦

29
0
约13.21万字
约 160页
2018-05-05 发布于上海
举报
版权申诉
保障服务

语种识别深度学习方法研究-信号与信息处理专业论文.docx

1、本文档共160页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语种识别深度学习方法研究-信号与信息处理专业论文

研究生优秀毕业论文中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除己特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名：鹃墨签字日期：迦!墨垒鱼尽生璺中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。|d公开口保密——年作者签名：煎垩导师签名．矩歹，锰∥／7-／／签字目期：翘应妥基塑签字日期：丝!竖!：兰万方数据摘要摘要语种识别(Language Identification，LID)是指自动判定给定语音段语言种类的过程。伴随着国际化趋势的日益深入，语种识别技术在多语言语音处理系统中的作用也越来越重要，业已成为多语言智能语音技术的不可或缺的关键组成部分之一。经过近五十余年的发展，对语种识别的研究取得了长足的进步，在某些特定任务下长时语音段的语种识别性能甚至超过了人工识别的结果。然而，现有语种识别系统的性能仍然不能满足日益增长的需求，尤其是面对短时语音段语种识别以及高混淆度的语言识别任务时。这主要是由于语言信息属于语音信号中的弱信息，隐藏在语音信号中，需要通过对语音中的信息进行提取和分析才能进行判定。判决结果的好坏强烈地依赖于语音信息段中的相关统计信息，而在短时语音段和高混淆语言任务中，现有方法对这些统计信息的估计缺乏鲁棒性。面对上述挑战，如何提取更适用于语种识别的特征以及提升模型的非线性分类能力是当前的研究重点。近年来，深度学习(Deep Learning)理论在诸多机器学习领域都取得了成功的应用，引起了学界和产业界的广泛关注。由于其模型具有深度非线性结构特性，深度学习模型具有较强的深层信息抽取和非线性建模能力。本文主要围绕深度学习在语种识别中的应用，从特征提取和模型构建两方面展开研究，主要包括以下内容：首先，本文提出了基于深层神经网络(Deep Neural Network，DNN)提取音素相关深瓶颈特征(Deep Bottleneck Feature，DBF)的语种识别方法。该特征通过训练一个音素状态相关的带有瓶颈层的深度神经网络，然后将底层声学特征通过神经网络，在深瓶颈层得到输出即为相应的DBF特征。该DBF特征能够有效的抑制底层声学特征中的语种无关噪声，特别是信道差异、说话人差异、背景噪声差异等噪声因素，并且能够将底层声学特征与具有物理意义的底层声学单元对应起来。实验结果表明，利用DBF特征结合全差异建模(Total Variability,TV)的语种识别方法DBF．TV，能够有效的提升语种识别的性能，特别是极大的改善了易混语种和方言、短时语音的语种识别性能。鉴于DBF特征的提取是基于特定语种的音素状态DNN网络而实现，本文还提出了基于不同语言音素状态任务的DNN提取不同语种相关DBF的并行语种识别方法，该方法能够融合语音信号在不同声学单元集合下呈现的语种差异，进一步提升语种识别的性能。其次，在DBF特征的基础上，本文提出了融合语种信息的区分性DBF特征(Discriminative DBF，D2BF)学习方法。该方法将基于音素的深度瓶颈提取网络作为初值，通过区分性的最大互信息准则(Maximum Mutual Information，MMI) 结合高斯混合模型(Gaussian Mixture Model，GMM)将语种分类任务直接与DBF 特征的提取过程建立联系，利用梯度下降法对网络参数进行调整，从而实现语T万方数据摘要种任务相关的特征学习过程。实验表明，较DBF特征而言，基于该方法提取的 D2BF特征更加适用于语种识别任务，特别是在后端类差异补偿模型不容易实现的情景下，该特征能够有效的提升系统的性能。再次，在模型域层面，本文提出了基于DNN的DBF．TV模型的改进方法。该方法在对混合高斯模型进行参数估计时，利用DNN的区分性分类能力，将语种识别的数据按照音素状态进行聚类从而得到GMM模型估计时的相关统计量。在该模型中，每个高斯成分直接对应于某一个音素状态。实验表明，基于区分性GMM模型的DBF．TV系统能够进一步提升系统的性能。最后，本文对利用深度学习模型直接进行语种识别建模进行了一定的探索。由于语种信息的隐藏特性，对语