语音和文本联合驱动卡通人脸动画方法及其面向移动娱乐应用-method for jointly driving cartoon face animation by voice and text and mobile entertainment-oriented application thereof.docxVIP

  • 30
  • 0
  • 约3.84万字
  • 约 49页
  • 2018-06-05 发布于上海
  • 举报

语音和文本联合驱动卡通人脸动画方法及其面向移动娱乐应用-method for jointly driving cartoon face animation by voice and text and mobile entertainment-oriented application thereof.docx

语音和文本联合驱动卡通人脸动画方法及其面向移动娱乐应用-method for jointly driving cartoon face animation by voice and text and mobile entertainment-oriented application thereof

第一章绪论1.1前言根据中央提出的发展数字娱乐产业的指示精神,在国家产业政策的支持和相关企业的努力下,我国的国产数字娱乐产业正在迅速发展,已逐渐形成具有强大生命力的新兴文化产业。数字产业具有当今知识经济的全部特征和完整的产业链,代表了国家文化产业的龙头地位,深受少年儿童、知识群体和普通市民的喜爱。目前,全球动漫产业的产值已趋近5000亿美元,日本的动漫产业已成为日本的第二大支柱产业。美国迪斯尼公司一年的产值就达到150亿美元,而去年,我国动漫产业的总收入也近100亿元人民币。据文化部预测,我国的动漫市场至少具有1000亿元的空间,未来三五年内有可能迎来发展的黄金时期。面对巨大的市场空间,目前全国已经有20多个省市将网游动漫作为新兴产业大力扶持。北京、上海、苏州、杭州、无锡、深圳、大连、成都、长沙、珠海等地相继出台优惠政策,建立动漫产业基地。有业内人士乐观地预计:“如果经过5至10年的时间,动漫产业在国民生产总值中的比重能够从目前的十万分之一提高到百分之一,那么我国动画产业就具有1000亿元产值的巨大发展空间。”在数字娱乐产业巨大的潜在市场中,卡通动画又是近年来快速发展的一项技术,在很多领域都有广泛的应用,如电影动画,游戏制作,网络多媒体,个人移动数字娱乐业务,等等。因此,在人脸动画领域,很多公司都加入研究并将其成果实现产业化。其中,RedTed公司提供了工具可以将任意人物的头像贴到三维人脸模型上,同时可用文本、语音甚至音乐控制。Sylvie公司实现了Verbot:“VerballyEnhancedSoftwareRobot”,可用于制作个性化、自动化、能听会说的三维智能人物。Crazytalker公司也开发了可用于制作人脸动画的工具。人脸动画驱动的主要方法可以归结为两种:一种是文本驱动,通常采取数据库映射将文本信息转换成动画视位[1]或是基于规则的方式完成文本信息到动画视位的转换[2]。该方法中不论是采用数据库映射还是采用规则转换进行动画驱动,都需要建立单字或是单词层面上文本与动画视位的对应关系。另一种是语音驱动,就是将人的语音信息转换为动画视位。将人脸动画驱动相关技术应用于卡通动画驱动,为驱动技术与数字娱乐产业提供了结合点,特别在个人移动业务方面有相当大的发展空间。1.2课题背景及意义1.2.1人脸多模式动画行为的研究及其现状人与人之间的交流是多模式的,也就是说人们在面对面的交流时,很自然地用到了语音,表情以及动作等多模式行为,通过这种多模式行为传达自己所要表达的意思。心理学研究结果表明,从人们获取信息的渠道来看,只有11%的信息是通过听觉获得的,83%是通过视觉获得。由此,心理学家提出一个公式:情感表达=7%的言词+39%的声音+54%的表情动作。心理学家柯克认为:“语言沟通模式是听觉收讯经过听觉及视觉的组织及联合的过程,再经过语言发讯及动作发讯而表达出来的。”英国心理学家米歇尔等人曾做过一个实验,他们发现:当语言信号和非语言信号不一致时,人们更加相信非语言信号所代表的意义。可见,人在语言交流中不仅是多模式的,而且非语言模式占有重要地位。要合成逼真的人脸动画,卡通人在表达自己时也必须采用多模式的方式,即综合语音、动作、表情等。多模式表达能有效地弥补语言表达的不足,防止因单一模式表达而带来的误解。同时在有些场合,如噪音区域,公共场合,也常常需要采用除语音以外的其他表达方式来增强对方对自己表达的正确理解。同样的证据出现在聋人手语中,有研究表明,聋人对只有手势而缺乏唇动和表情的手语的理解度只有60%-70%。对计算机而言,随着合成技术的发展,目前对于单模式行为的合成已经取得很大的突破。比如语音合成方面,现在利用大规模语料库和波形拼接算法,可以合成出具有个性化韵律的特定人流畅语音。在表情合成方面,利用计算机动画和图像处理技术,运用机器学习方法,可以模仿合成出非特定人的任意表情。但当研究人员期望将各种合成技术叠加起来合成多模式行为表达时却遇到了困难,这种困难主要来自于我们对多模式行为信号同步和协同机制知识的缺乏。本文所指的同步与协同问题,具体表现为语音与唇动人脸动画强关联同步以及语音、唇动的协同关联。认知学家与心理学家已经观察到有大量的相关信息存在语音和人脸行为中。脸部信息可以增加观察者对语音内容以及形式上的理解,并且被很多基于语音界面的系统考虑。相反,语音唇动表情同步问题被认为是生成可接受的动画人脸的主要障碍。人们对于解释人脸运动行为有较高的敏感性,不真实自然的动画人脸通常会干扰甚至打断人们对语音的理解。同样在聋人手语表达中,手势与唇动表情协同性的好坏将决定整个系统的智能性、逼真度和可接受性。因此说多模式信号的同步和协同关联控制成为虚拟人多模式行为合成的瓶颈问题,对这种同步和协同关联控制的研究,不仅可以丰富数据挖掘、机器学习等相关

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档