- 8
- 0
- 约8.59万字
- 约 91页
- 2019-01-20 发布于上海
- 举报
耳语音转换正常语音及耳语音识别建模方法研究信息与通信工程专业论文
研究生优秀毕业论文
中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰 写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了 明确的说明。
作者签名: 专糸去、 签字日期:
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中 国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内 容相一致。
保密的学位论文在解密后也遵守此规定。
留仫开 口保密 年
签字日期: 兰
作者签名:盔量盘: 导师签名:
万方数据
摘要摘要
摘要
摘要
耳语音是一种有别于正常语音的常见发音方式,广泛地应用于人们的日常 交流当中。由于发音器官进行耳语音发声时,声带没有振动,导致耳语音的浊 音部分没有基频,并导致耳语音的频谱结构与正常语音存在很大不同。这一发 音特点不仅导致耳语音的能量较低,而且也使得其自然度和可懂度比同样条件 下的正常语音低。本文主要针对耳语音转换正常语音及耳语音识别的建模方法 进行研究。
耳语音转换正常语音的目的将一个人的耳语音通过某种方式转换成正常语 音,以提高耳语音的自然度和可懂度。在公共场所,人们出于隐私或者避免打 扰他人的考虑,在语音通话时通常会采用耳语音。但是现有的通信系统都是针 对正常语音发展而来,对耳语音支持度不高。耳语音转换技术有望可以提高耳 语音通话的可懂度和自然度。此外,耳语音转换也可以应用在失音患者的辅助 发音当中。
本文先后进行了基于规则和基于统计的耳语音转换研究。基于规则的转换 模型具有高效快速、不需要训练数据等优点,而基于统计的转换模型需要训练 数据,实时性也稍逊一筹,但是其转换音质较高,因此都具有研究价值。已有的
基于码激励线性预测编码器(Code exited linear prediction,CELP)的耳语音转换
模型不仅频谱转换规则复杂,需要对耳语音音素进行预分类,而且又存在基频 生成规则过于简单的问题,使得其转换语音音质不佳,而且难以应用在连续耳 语音的转换任务当中。为此,本文提出了基于正弦语音(Sinewave speech,SWS) 合成的耳语音转换模型。这种模型不仅更加简洁,去掉了耳语音预处理模块,加 入了根据共振峰估计基频的模块,而且可以作用于连续耳语音的转换,并使得 转换语音的音质有了一定的改善。
在基于统计的耳语音转换模型研究中,本文针对传统基于高斯混合模型
(Gaussian mixture model,㈣)的耳语音频谱转换模型难以对维间相关性和
高维谱包络建模的不足,提出将受限玻尔兹曼机(restricted Boltzmann machine. RBM)应用于耳语音频谱转换建模。由于RBM不仅支持高维的谱包络输入,而 且对维间相关性具有较强的建模的能力,使得该模型的转换语音相对GMM模 型的转换语音有了明显的主观听感提升。
此外,本文还尝试了将深层神经网络(Deep neural network,DNN)用于耳 语音频谱转换的建模当中。采用标准的RBM逐层预训练和最小均方误差准则 (Minimum mean square error,MMSE)有监督训练得到的DNN,在训练数据较少
的情况下容易出现过拟合现象,且网络训练容易受奇异数据影响。为此,本文
提出了一种半监督(Semi。supervised)耳语音转换DNN训练流程。在该流程中, 各采用一个I出M分别对耳语音和并行的正常语音谱包络参数空间建模,并通过
万方数据
摘要训练得到的模型计算RBM隐层数据,这相当于对谱包络参数进行二值编码。然
摘要
训练得到的模型计算RBM隐层数据,这相当于对谱包络参数进行二值编码。然 后,用MMSE准则训练DNN中间网络,建立耳语音谱包络二值编码到正常语 音谱包络二值编码的映射关系。最后,将两两端的RBM和DNN中间网络组合 成完整的DNN,完成耳语音谱包络参数到正常语音谱包络参数的转换。主观听 感实验表明,这种半监督DNN不仅相对标准DNN有了明显的听感提升,而且 相对RBM模型也有了一定的主观听感改善。
最后,本文在DNN.HNLM混合模型框架下对耳语音识别的声学模型建模方 法进行了研究。由于耳语音的频谱比较平缓,不同音素之间的声学特征区分性比 较小,使
您可能关注的文档
- 全装配型钢混凝土住宅中轻骨料型钢混凝土柱受力性能分析结构工程专业论文.docx
- 基于知识获取的中国大陆区域创新能力比较研究情报学专业论文.docx
- 人民币有效汇率指数体系理论与方法金融学专业论文.docx
- 主动式电子节气门控制器设计与研究车辆工程专业论文.docx
- 堤防工程风险分析理论和实践研究岩土工程专业论文.docx
- 信息过滤技术研究英译实践报告英语笔译专业论文.docx
- 电热熔盐换热系统设计与性能研究工程热物理专业论文.docx
- 粉末冶金铁基高温合金的制备及其微观组织和高温性能研究材料学专业论文.docx
- 大学生认识信念研究心理学;发展与教育心理学专业论文.docx
- 公路cfrp筋预应力混凝土小箱梁标准设计研究建筑与土木工程专业论文.docx
原创力文档

文档评论(0)