基于医学影像的语音驱动舌位运动合成-人机语音交互课题组.PDF

下载文档

19
0
约2.42万字
约 6页
2019-03-27 发布于天津
举报
版权申诉
保障服务

基于医学影像的语音驱动舌位运动合成-人机语音交互课题组.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

NCMMSC2017 中国连云港 2017 年10 月基于医学影像的语音驱动舌位运动合成 1 1,3 1,2,3 张大伟，杨明浩，陶建华 (1. 中国科学院自动化研究所模式识别国家重点实验室，北京 100190 中国 2. 中国科学院大学人工智能技术学院，北京 100190 中国 3. 中国科学院脑科学与智能技术卓越创新中心，中国) 文摘：发音器官运动可视化对人类发音机理研究、语言教学和病理语音分析等具有重要意义。本文提出一种文本无关的语音驱动舌位运动合成方法，基于医学影像和舌位轮廓自动提取方法，利用组合深度神经网络模型实现舌位运动的实时合成，并对舌位轮廓去噪、声学特征选取、映射模型结构等进行对比分析。实验表明，本文所提方法在有限带噪数据样本下能有效平衡过拟合与欠拟合问题，相比基线方法在准确率上有明显提升，甚至个别关键点预测结果优于自动提取的舌位轮廓边缘点。关键词：舌位运动合成；语音驱动；医学影像；组合深度神经网络中图分类号：TP391.4 ；TN912.3 ；R332.8 ；TP183 语音驱动舌位运动合成是可视语音合成的重并获得优于传统人工神经网络（ANN ）的效果。非点研究内容之一，对人类发音机理研究、言语教学监督预训练使得网络能够更好地拟合训练数据 [1-3] [12-14] 及发音病理分析与康复训练具有重要意义。舌是。长短时记忆网络模型（LSTM ）近年来应用人类重要的发音器官，为了更好地研究舌位运动与也十分广泛，尤其关于时序问题的处理和预测方面语音信号之间的关系，一些研究人员利用可视语音表现比较突出[15-17] 。此外，还有其他一些研究人员平行数据库对音视频映射进行建模和分析。码本映利用不同声学参数及上下文信息提出了相应的解 [4, 5] [6, 7] [18-20] 射方法和基元拼接方法都是在数据库的基础决方案。然而在医学应用中，被观测发音人往 [21] 上进行压缩和提取，建立样本库后通过拼接的方法往发音不标准或带有地区性口音，且发音器官运实现参数映射，因此利用该方法合成的发音器官轮动和语音之间的映射并非线性关系或一一对应的[22, 廓质量高，较为逼真。但它们的缺点是映射都是针 23] ，通常难以进行统一的音节标注；同时，合成的对某个特定说话人的，无法移植到其他人身上，且舌位需准确反映发音人的病理特征，EMA 数据尽管对数据库质量的要求较高，灵活性较差。基于高斯能提供舌位运动过程中关键点的精确坐标[24-26] ，但混合模型（GMM ）的参数映射方法是经典参数回由于其过于稀疏导致合成的舌位轮廓不够准确，需 [27] 归方法，它曾被广泛应用于语音的说话人转换等领借助医学影像进一步研究。 [8, 9] [10, 11] 域，在可视语音合成领域也被成功应用，由上述分析，本文基于核磁（MRI ）发音数据然而其合成的发音器官运动过于平滑，通常可以较