Vol. 3 No.2 / Feb. 2009
三维说话人头像连续发音动态模拟
王岚 陈辉 欧阳建军 李燕
摘 要 本文针对三维说话人头像发音模拟的研究,介绍了这个研究领域的最新进展。然后,介绍了我们建立的三维说话
人头像连续发音动态模拟方法,包括:同步采集说话人的面部视频和音频录像,以及口腔内部X光录像;标注说话人发音
器官运动特征控制点,并建立对应每个音素的特征点数据库;实现发音器官不同类型的变形运动;最后探讨了连续发音变
形的特点和实现方法。
关键词 3D Talking Head;发音运动模拟;语音可视化
1 引言
语音的产生,通过三维虚拟头像的语音表达,增强
语音和视觉是人类信息和知识的主要载体, 合成语音的自然度、可懂度和真实度。本项研究将
也是人类进行学习和交流的重要工具。在电子和 基于语音产生机理和生理解剖学,将语音可视化应
通信技术迅速发展的今天,多种媒体之间的交互 用在一个崭新的领域——自动语言学习系统。
作用越来越受到人们的重视,如语音合成(Text-to- 在语言学习中,通过听觉和视觉两类信息的结
Speech)与自动语音识别实现了文字和语音的互相 合,不但可以避免正确语音信息在传播过程中的丢
转换;自动机器唇读、图像辅助语音识别和音频、 失,更加能够形象的学习规范发音动作。发声语言
视频联合编码则利用了语音和图像之间的内在联 学的研究表明,发音是在脑神经控制下,通过发音
系,来提高单一系统的识别率和鲁棒性。视觉语音 器官与身体多部位器官的互相配合,进行协同动作
(Visual Speech)的研究正是一种综合考虑声音和 实现的。语言发音在音素、音段、超音段各个层次
图像等多媒体信息而开展的新兴研究领域,它是指 上,都需要肌肉提供原动力,需要神经与肌肉精确
人们在用语言交流时所表达出的面部表情和动作, 复杂的协调来控制操纵发音器官,在对口语理解进
能在一定程度上传达人们想要表达的意思,并能帮 行测试中,将语音和说话人的面部和唇部运动的可
助人们加深对语言的理解。研究表明,在环境噪声 视化资料结合起来能够减少在信息传递中的错误,
较大或听者有听力障碍的情况下,如果在处理声音 尤其是当信息量较大和传输环境不好的情况下。所
信息的同时能显示一个“会说话的头像”(Talking 以,语言的学习是一个重要的交互过程,而英语
Head),即表现说话者面部表情和嘴部、眼部等 和中文是两个不同的语言体系,在发音学、韵律学
变化情况,则会大大改善人们对声音信息的理解 和构词法,句法等各个语言特征方面都有很大的差
和感知。在此基础上发展的语音可视化(Speech 异。在语言学习中仅仅通过声音的播放是难以掌握
Visualization)研究不仅包含了传统语音信号处理 语言的正确发声的,必须通过观察教师的口型、面
的技术基础,更利用了图像、图形以及虚拟现实等 部动作,才能了解和理解英语的特点,进而改变母
方法将语音应用充分表现出来。目前,语音可视 语发声习惯,真正掌握一种语言的发音。目前,所
化技术主要分为两类:一种是语音动画(Speech 有的自动语言学习系统的研究都集中在发音声学的
Animation),即利用动画效果来设计和表现说话人 领域,利用自动语音处理或识别技术,来评测发音
的面部表情、口型变化等。这类技术通过定义对应 的准确程度和自然程度,仅有的补充是展示二维发
音素
您可能关注的文档
最近下载
- 2025-2026学年人教PEP版四年级下册英语每课教学设计(附目录).pdf
- 基于plc的控制系统毕业设计.docx
- 基于ANSYS发动机曲轴有限元分析.doc VIP
- 欧洲标准化委员会BS EN 1015-7-1999.pdf VIP
- BS EN 1015-1~3-1999(2006) 砖石砂浆试验方法.第1-3部分(合订).pdf VIP
- 2024年中国东方电气集团有限公司招聘80人历年高频考题难、易错点模拟试题附带答案真题题库及下载答案.docx VIP
- 地下车位出租合同范本.pdf VIP
- 2025人教版美术七年级下册全册教学设计教案.docx
- Morse跌倒评估量表.doc VIP
- 创新创业课件.ppt VIP
原创力文档

文档评论(0)