- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NCMMSC2017 中国连云港 2017 年10 月
基于医学影像的语音驱动舌位运动合成
1 1,3 1,2,3
张大伟 ,杨明浩 ,陶建华
(1. 中国科学院自动化研究所模式识别国家重点实验室,北京 100190 中国
2. 中国科学院大学人工智能技术学院,北京 100190 中国
3. 中国科学院脑科学与智能技术卓越创新中心,中国)
文 摘:发音器官运动可视化对人类发音机理研究、语言教学和病理语音分析等具有重要意义。本文提出一种文本无
关的语音驱动舌位运动合成方法,基于医学影像和舌位轮廓自动提取方法,利用组合深度神经网络模型实现舌位运动
的实时合成,并对舌位轮廓去噪、声学特征选取、映射模型结构等进行对比分析。实验表明,本文所提方法在有限带
噪数据样本下能有效平衡过拟合与欠拟合问题,相比基线方法在准确率上有明显提升,甚至个别关键点预测结果优于
自动提取的舌位轮廓边缘点。
关键词:舌位运动合成;语音驱动;医学影像;组合深度神经网络
中图分类号:TP391.4 ;TN912.3 ;R332.8 ;TP183
语音驱动舌位运动合成是可视语音合成的重 并获得优于传统人工神经网络(ANN )的效果。非
点研究内容之一,对人类发音机理研究、言语教学 监督预训练使得网络能够更好地拟合训练数据
[1-3] [12-14]
及发音病理分析与康复训练具有重要意义 。舌是 。长短时记忆网络模型(LSTM )近年来应用
人类重要的发音器官,为了更好地研究舌位运动与 也十分广泛,尤其关于时序问题的处理和预测方面
语音信号之间的关系,一些研究人员利用可视语音 表现比较突出[15-17] 。此外,还有其他一些研究人员
平行数据库对音视频映射进行建模和分析。码本映 利用不同声学参数及上下文信息提出了相应的解
[4, 5] [6, 7] [18-20]
射方法 和基元拼接方法 都是在数据库的基础 决方案 。然而在医学应用中,被观测发音人往
[21]
上进行压缩和提取,建立样本库后通过拼接的方法 往发音不标准或带有地区性口音 ,且发音器官运
实现参数映射,因此利用该方法合成的发音器官轮 动和语音之间的映射并非线性关系或一一对应的[22,
廓质量高,较为逼真。但它们的缺点是映射都是针 23] ,通常难以进行统一的音节标注;同时,合成的
对某个特定说话人的,无法移植到其他人身上,且 舌位需准确反映发音人的病理特征,EMA 数据尽管
对数据库质量的要求较高,灵活性较差。基于高斯 能提供舌位运动过程中关键点的精确坐标[24-26] ,但
混合模型(GMM )的参数映射方法是经典参数回 由于其过于稀疏导致合成的舌位轮廓不够准确,需
[27]
归方法,它曾被广泛应用于语音的说话人转换等领 借助医学影像进一步研究 。
[8, 9] [10, 11]
域 ,在可视语音合成领域也被成功应用 , 由上述分析,本文基于核磁(MRI )发音数据
然而其合成的发音器官运动过于平滑,通常可以较
原创力文档


文档评论(0)