耳语音转换正常语音及耳语音识别建模方法研究信息与通信工程专业论文.docxVIP

下载本文档

8
0
约8.59万字
约 91页
2019-01-20 发布于上海
举报

耳语音转换正常语音及耳语音识别建模方法研究信息与通信工程专业论文.docx

耳语音转换正常语音及耳语音识别建模方法研究信息与通信工程专业论文

研究生优秀毕业论文中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除己特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名：专糸去、签字日期：中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。留仫开口保密年签字日期：兰作者签名：盔量盘：导师签名：万方数据摘要摘要摘要摘要耳语音是一种有别于正常语音的常见发音方式，广泛地应用于人们的日常交流当中。由于发音器官进行耳语音发声时，声带没有振动，导致耳语音的浊音部分没有基频，并导致耳语音的频谱结构与正常语音存在很大不同。这一发音特点不仅导致耳语音的能量较低，而且也使得其自然度和可懂度比同样条件下的正常语音低。本文主要针对耳语音转换正常语音及耳语音识别的建模方法进行研究。耳语音转换正常语音的目的将一个人的耳语音通过某种方式转换成正常语音，以提高耳语音的自然度和可懂度。在公共场所，人们出于隐私或者避免打扰他人的考虑，在语音通话时通常会采用耳语音。但是现有的通信系统都是针对正常语音发展而来，对耳语音支持度不高。耳语音转换技术有望可以提高耳语音通话的可懂度和自然度。此外，耳语音转换也可以应用在失音患者的辅助发音当中。本文先后进行了基于规则和基于统计的耳语音转换研究。基于规则的转换模型具有高效快速、不需要训练数据等优点，而基于统计的转换模型需要训练数据，实时性也稍逊一筹，但是其转换音质较高，因此都具有研究价值。已有的基于码激励线性预测编码器(Code exited linear prediction,CELP)的耳语音转换模型不仅频谱转换规则复杂，需要对耳语音音素进行预分类，而且又存在基频生成规则过于简单的问题，使得其转换语音音质不佳，而且难以应用在连续耳语音的转换任务当中。为此，本文提出了基于正弦语音(Sinewave speech，SWS) 合成的耳语音转换模型。这种模型不仅更加简洁，去掉了耳语音预处理模块，加入了根据共振峰估计基频的模块，而且可以作用于连续耳语音的转换，并使得转换语音的音质有了一定的改善。在基于统计的耳语音转换模型研究中，本文针对传统基于高斯混合模型 (Gaussian mixture model，㈣)的耳语音频谱转换模型难以对维间相关性和高维谱包络建模的不足，提出将受限玻尔兹曼机(restricted Boltzmann machine． RBM)应用于耳语音频谱转换建模。由于RBM不仅支持高维的谱包络输入，而且对维间相关性具有较强的建模的能力，使得该模型的转换语音相对GMM模型的转换语音有了明显的主观听感提升。此外，本文还尝试了将深层神经网络(Deep neural network,DNN)用于耳语音频谱转换的建模当中。采用标准的RBM逐层预训练和最小均方误差准则 (Minimum mean square error,MMSE)有监督训练得到的DNN，在训练数据较少的情况下容易出现过拟合现象，且网络训练容易受奇异数据影响。为此，本文提出了一种半监督(Semi。supervised)耳语音转换DNN训练流程。在该流程中，各采用一个I出M分别对耳语音和并行的正常语音谱包络参数空间建模，并通过万方数据摘要训练得到的模型计算RBM隐层数据，这相当于对谱包络参数进行二值编码。然摘要训练得到的模型计算RBM隐层数据，这相当于对谱包络参数进行二值编码。然后，用MMSE准则训练DNN中间网络，建立耳语音谱包络二值编码到正常语音谱包络二值编码的映射关系。最后，将两两端的RBM和DNN中间网络组合成完整的DNN，完成耳语音谱包络参数到正常语音谱包络参数的转换。主观听感实验表明，这种半监督DNN不仅相对标准DNN有了明显的听感提升，而且相对RBM模型也有了一定的主观听感改善。最后，本文在DNN．HNLM混合模型框架下对耳语音识别的声学模型建模方法进行了研究。由于耳语音的频谱比较平缓，不同音素之间的声学特征区分性比较小，使

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

耳语音转换正常语音及耳语音识别建模方法研究信息与通信工程专业论文.docxVIP