- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于机器学习的情感视位合成.pdf
基于机器学习的情感视位合成
周川林学阁
清华大学计算机科学与技术系,北京,100084
摘要:在刊Lqg-音合成技术当中,对于表情的处理是非常关键的技术,然而,传豌的可视语
音合成技术由于受到算法本身麒及样本数量的限制,往往忽略了在合成语音视频中对表情因素
的处理,这直接导致了合成结果缺乏真买感和感染力。为了解决这一问题,本文在传统的数据
驱动的可视语音合成技术上,融各了我们的参数化表情合成技术,创造性地提出了一种情感视
位合成技术。从实验结果上看,本文提出的算法,有效地解决了传统可视语音合成中缺乏情感
表现力的难题。
关键词:可枫语音合成j参数他表情图像合成;因素分解:权重模型:纹理拼接
1.概述
视频信息和音频信息在人们的相互交流中起着至关重要的作用。生动的语言加上丰富
的表情可以在交流当中表达更为准确、更为丰富的信息。可视语音台成技术(visual
speech
synthesis)就是’种结合了语音和图像(视频)技术来协同表达语言交流信息的合成技术。
由于音频和视频结合在语言交流中的重要性,可视语音合成技术已经成为了语音学、计算
机视觉、计算机图形学的一个热点研究领域。
可视语音合成方法的研究目前以取得了相当大的进展。基于数据驱动的合成方法已经
可以利用采集的样本合成出具有相当真实感的可视语音;嗬基于参数控制的方法则可以通
过精确的人脸模型来合成具有丰富表现力的面部细节。然而传统的可视语音合成研究主要
集中在如何在单纯的语音合成的基础上加入较为逼真、自然的连续变化的口形,而往往忽
略了表情因素在语言交流方面的重要作用。研究表明,人们说话时复杂多变的面部表情不
仅可以传达丰富的感情,|『|:iH可以增强对语言的理解。因此,在可视语音台成中加入表情
因素,可以合成更为逼真、自然的图像序列。
传统的基于机器学习的方法在情感视位合成中面临的一个主要斟难就是面埘表情对
说话时的面部形状与纹理的复杂影响,其不得不采集并记录下不同情境下的大量图像样本。
比如,如果要合成某个人在表情和视位共同影响下的面部纹理,就需要记录下来此人在不
同情感状态F的一系列视位矧像,假设我们有m种典型表情、n种典犁视忙,则至少需要
记录m×n幅图像。显然,对于每一个参加训练的对象都记录如此之大的样本集,是十分困
难的。为了解决这一个问题,本文在已有的数据驱动合成系统和参数化控制表情合成系统
的基础上,提山了啼}新颖的情感、视位融合算法。该算法的~大优势就是将视位和表情
分开考虑,因此使合成时的样本复杂度南mr/变为m+//,_人大提高了系统的实用性。同时
瓷助项H 围家973重点基础研究发展规划革金(2002CB31210Ij、国家自然科学基金
cn
载系作者:周川,Emalt:zhouclauaa99@marlsts/nghuaedu
Ⅳ多媒体信号处理 259
本文将一种新型的用户可控的参数化表情融合控制算法引入到系统当中,使得用户可以按
照其需求存不同的语音场景中加入不同的情感凼素,来扶得更加自然、真实的合成结果。
2.系统架构
如上所述,我们的方法是在已有的数据驱动合成系统的基础上,将情感因素融合到最
终的合成结果中去。因此我们的系统包括数据驱动合成系统、参数化表情合成系统、情感
图像融台系统这三个主要部分,如图1所示。
图1系统架构图
3.数据驱动的可视语音合成系统
对于可视语音合成中的基本视位合成,本文采用了清华大学王志明博士的研究成果…。
在语音合成中,将语音音段中能够区分意义的最小单位称之为“音位”,而将与某一音位对
应的典型口形成为“视位”(viseme),同时,我们把具有一定“表情”的“视位”称为“情
感视位”。在我们的数据驱动的可视语音合成模块当中,首先对特定的人采集。定说话视频,
然后根据需要台成的目标文本,再经过训练后的样本集tIJ进行合理的组合和插值,从而为
我们的系统提供虽初的视位图像序列。由于这部分工作不是本文的重点,因此
文档评论(0)