口型模拟技术及其在网络课程中应用探索.docVIP

下载本文档

5
0
约5.43千字
约 9页
2017-07-29 发布于福建
举报
版权申诉

口型模拟技术及其在网络课程中应用探索.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

口型模拟技术及其在网络课程中应用探索

口型模拟技术及其在网络课程中应用探索【摘要】口型模拟是一种人工智能技术,目前已在多个领域得到应用。文章在介绍口型模拟技术的基础上,比较了两款典型软件的特点,并探讨了该技术在网络课程制作中的应用。通过实验证明,在网络课程中采用口型模拟技术生成动画来讲解理论性知识,与真实教师视频讲解的教学效果基本接近,二者在测验成绩和认知负荷方面未呈现显著差异。【关键词】口型模拟;网络课程;TTS;语音合成;人工智能【中图分类号】G40-057【文献标识码】A【论文编号】1009―8097(2010)03―0035―04 随着高校精品课程建设的推进,网络课程的应用日益广泛。与真实的课堂教学相比,网络学习通常缺乏直面教师的临场感。为此,人们在网络课程中加入教师讲课的视频,但这在一定程度上也导致了课程的开发成本大幅提高。本文认为,可以尝试借助口型模拟技术来解决这些问题。通过在网络课程中提供虚拟的教师代理,对教学内容进行拟人化的讲解,并为学习者提供必要的引导,从而降低制作成本,增强学习的临场感和交互性,提高网络学习的效果。一口型模拟技术概述 1 口型模拟技术的分类口型模拟又称为口形自动匹配,它是人工智能技术的一种。目前实现口型模拟的方法主要分为三种:基于文本驱动、基于自然语音驱动和音视频混合建模方法[1][2][3]。 (1) 基于文本驱动的方法:该方法主要通过TTS(Text to Speech,文-语转换)引擎来驱动人脸的口部运动。TTS引擎将输入的文本信息转化为对应的音素序列、音素时长以及对应的语音波形,然后在模型库中选择对应的模型单元,通过平滑处理和相应的同步算法最终呈现出和输入文本内容相对应的语音和人脸口部动作。利用TTS合成语音的真实程度目前还不太理想,不适于实时的自然语音处理环境。 (2) 音视频混合建模的方法:该方法通过混合从视频图像中提取的运动参数和音频中提取的声学参数来建立统计模型,然后将输入的语音参数与模型库通过转换算法进行匹配,最后呈现出与语音内容相对应的可视人脸口部动作。这类方法涉及的算法比较复杂,所建立的模型的可扩展性有限。 (3) 基于自然语音驱动的方法:该方法将自然语音建模和可视口形建模分离,使其在各自建模阶段参数之间保持相对独立,只需通过识别出的语音模型标识序列来选择对应的口形参数即可完成匹配过程。该方法可根据不同的要求建立不同的口部模型,具有较强的可扩展性,但其匹配的准确度依赖于对语音模型的正确识别率。 2 口型模拟技术的应用领域目前口型模拟技术已在许多领域得到应用[4][5][6],主要包括:(1)动漫电影人物语音与口形的自动匹配;(2)电信、银行、航班、证券部门的声讯服务;(3)智能人机界面,如交易网站的产品介绍、人机交互网站的智能代理;(4)虚拟现实、游戏中的虚拟人化身;(5)外语辅助教学,如辅助校正发声、听力练习、双语教学等;(6)聋哑人辅助发声训练。二典型的口型模拟软件及其特点有关口型模拟技术的软件虽然不少,但大多为科研实验或商业应用而开发,适合于个人用户使用的产品并不多。目前在互联网上可供用户免费试用的典型口型模拟软件主要有两款:Talking Photo和SitePal [7] [8]。 1 Talking Photo Talking Photo又称“会说话的照片”,它是由美国一家致力于移动计算、视频以及互联网服务的高科技公司PQ Computing发布的一款软件,比较适合于制作博客或MSN的个性头像,会说话的电子相册、贺卡等[9]。该软件的功能特点包括:(1)简单易用。只需一张照片和一段音频,便可合成复杂逼真的人物的动态表情。(2)使用Flash9/AS3实现复杂的人脸模型算法,可实时计算人脸表情。(3)智能语音识别,根据声音自动对上人物口型,并支持任意一种语言。(4)人物的表情、动作、口形既可由程序自动生成,又可由用户手动添加和控制。 2 SitePal SitePal又称“会说话的头像”,是由美国的一家广告媒体公司Oddcast发布的一款软件,它支持用户在线创建自定义的、会讲话的虚拟替身(Avatar),并可将其作为娱乐性插件嵌入个人主页、博客、Flash程序、电子邮件、PowerPoint甚至eBay的交易网站中。该软件目前已广泛用于各类商业网站的广告宣传、天气预报、股票和新闻播报等[10],其功能特点包括:(1)全部制作过程在线完成,无需编程或下载安装插件。(2)提供了丰富、专业的模特库,用户可对替身的年龄、肤色、发型、服装等进行微调。(3)支持多种添加语音的方法。(4)提供了一些智能化功能,支持常见问题回答、顾客信息搜集和智能人机交互等服务。 3二者的比较以上