基于深层神经网络的口语发音检测与错误分析-控制科学与工程专业论文.docxVIP

下载本文档

4
0
约11.74万字
约 134页
2019-01-15 发布于上海
举报
版权申诉

基于深层神经网络的口语发音检测与错误分析-控制科学与工程专业论文.docx

1、本文档共134页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深层神经网络的口语发音检测与错误分析-控制科学与工程专业论文

优秀毕业论文精品参考文献资料摘要摘要摘要摘要随着全球经济的飞速发展，不同国家之间在政治、经济、文化、教育等各个方面的交流与合作越发频繁。越多的人开始学习除母语之外的另外一种语言。掌握-I-J交流语言，口语学习至关重要。高效的口语学习需要师生之间一对一、面对面的互动交流。然而，这种方式却受到时空和经济条件的限制。近些年来，随着科学技术的发展，在线教育越来越受欢迎，以云为核心的强大计算资源，高度普及的移动智能设备以及飞速发展的语音处理技术，这些有利条件使得计算机辅助语言学习系统(CALL)越来越受到人们的亲睐。然而，音素层面发音错误的检测与诊断，作为CALL系统的一个核心模块，其准确度依然有待进一步提高。近年来，深度学习，作为一种新的机器学习方法，在人工智能的各个领域都得到了广泛的应用和成功。在这一背景下，本文也着手探索深度神经网络(DNN) 框架下更高效的发音错误检测算法。本文先针对口语学习的特殊性，改善原始的声学模型，然后从后验概率计算、假设检验模型和有监督学习分类三个不同的角度研究发音错误检测算法，拓展与改善传统的方法，提出了DNN框架下的新方法。首先，本文在语音识别声学模型的基础上，引入基频曲线特征，增强了CALL 系统对中文声调和英文单词重读的判别能力。除语音识别的单词或汉字准确率外，CALL系统还关注对重读或声调的判别能力。基频曲线是其最主要的声学信号。然而，和谱特征不同，基频曲线是非连续的，清音段发声时声带不振动，没有基频值。基频曲线的非连续特性在传统的GMM．HMM系统中甚难直接处理，常用方法是在清音段做插值处理，再将其以连续信号进行建模。鉴于DNN对输入特征的类型和先验分布没有潜在的假设和要求，本文探讨了DNN框架下基频特征更为简洁的非插值处理方式，研究了DNN—HMM系统中各种基频相关特征以及插值和非插值两种嵌入方法对中文声调和音节识别结果的影响。实验发现基频的一阶和二阶梯度是影响声调识别的最主要因素，而清音段的插值或非插值方法对声调和音节的识别影响不大。但非插值处理方法简省了前端的插值处理过程。其次，本文将传统的发音质量评估(GOP)算法拓展至DNN的发音错误检测系统中，并简化计算过程，大幅度提高了口语错误检测的准确率。针对用户的非标准发音与标准发音模型之间的不一致，本文引入基于KL散度正则化的 DNN自适应技术对声学模型进行自适应。针对传统GOP计算框架中，当前音素的发音错误会影响其相邻音素的GOP计算这一观测，进一步改善GOP的计算方法。在一个大规模的外国人学中文数据库中的实验结果表明，DNN的自适应技术和修正后的GOP能显著地提高音素层面发音错误检测与诊断的准确率。 T 万方数据摘要再次，本文提出一种基于语音学空间和摘要再次，本文提出一种基于语音学空间和KL散度距离度量的发音错误检测算法。语音学空间的基本元素为senone，其后验概率由DNN从声学特征中经区分性学习获得。DNN的区分性学习过程规整了不同说话人、传输信道、录音环境等外界噪声的干扰。因此，相对于声学特征空间，语音学空间更适宜发音错误的检测。另外，senone是非常小的语音单元，是描述语音学特性的基本元素，可更精确、全面地描述各个音素在不同上下文中的发音错误形式。鉴于此，本文提出在语音学空间中，显式地构造各个senone正确和错误发音的统计模型。将错误检测问题转化为了语音学空间中点的距离度量问题。另外，为了进一步提高语音学空间中各个senone间的区分性，本文还提出一种基于语音学特征和KL散度量度的隐状态聚类算法，获得新的决策树、scnone集以及声学模型。新的声学模型也进一步提高了发音错误检测的准确率。最后，考虑到某些音素样本不足，无法独自构建一个鲁棒的分类器，本文提出一种新的基于神经网络多任务学习的高效分类器。将各个音素的所有二分类器嵌入到同一个神经网络模型中，通过共享底层神经网络，样本量不足的音素分类器可以借鉴其他分类器学习到的高层特征表达，从而改善分类器的性能。本文采用二项逻辑回归模型作为基本二分类器，其底层共享的网络为普通的前馈神经网络。我们在一个英文和中文语言学习数据库上分别验证了基于共同学习分类器在发音错误检测方面的系统性能。关键词：发音错误检测，计算机辅助语言教学，深层神经网络，隐马尔可夫模型，语音识别 II 万方数据 ABSTRACTABSTRACT ABSTRACT ABSTRACT The rapid globalization of regions of different languages demands more advanced foreign language proficiency am