AI成真:虚拟数字人走进生活.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

AI成真:虚拟数字人走进生活

作者:罗道

来源:《电脑报》2020年第50期

虚拟数字人,是存在于数字世界的“人”,通过动作捕捉、三维建模、语音合成等技术高度

还原真实人类,再借助AR/MR/VR等终端呈现出来的立体“人”。在人工智能、虚拟现实等新

技术浪潮的带动下,虚拟数字人制作过程得到有效简化、各方面性能获得飞跃式提升。

“虚拟数字人”一词最早源于1989年美国国立医学图书馆发起的“可视人计划”(Visible

HumanProject,YHP)。这些“虚拟数字人”主要是指人体结构的可视化,以三维形式显示人

体解剖结构的大小、形状、位置及器官间的相互空间关系,即利用人体信息,实现人体解剖结

构的数字化。主要应用于医疗领域的人体解剖教学、临床诊疗等。

该技术在发展中拓展到高保真数字人的技术边界,在电影技术应用中得到拓展,提升了电

影和游戏开发的商业机遇,主要应用的技术包括:照相建模、实时捕捉。

虚拟数字人的发展与其制作技术的进步密不可分,从最早的手工绘制到现在的CG

(ComputerGraphics,电脑绘图)、人工智能合成,虚拟数字人大致经历了萌芽、探索、初级

和成长四个阶段。行业人士称,不久的将来,现实世界中的每一个地方和事物——每一条街

道、每一个灯柱、每一栋建筑物和每一个房间都会在镜像世界中拥有它的全尺寸“数字孪生兄

弟”。

世20纪80年代,人们开始尝试将虚拟人物引入到现实世界中,虚拟数字人步入萌芽阶

段。该时期虚拟数字人的制作技术以手工绘制为主,应用极为有限。1982年,日本动画《超

时空要塞》播出后,制作方将女主角林明美包装成演唱动画插曲的歌手,并制作了音乐专辑,

该专辑成功打入当时日本知名的音乐排行榜Oricon,林明美也成为了世界上第一位虚拟歌姬。

1984年英国人GeorgeStone创作出一个名为MaxHeadroom的虚拟人物,Max拥有人类的

样貌和表情动作,身穿西装,佩戴墨镜,曾参演了一部电影,拍摄了数条广告,一度成为英国

家喻户晓的虚拟演员。由于技术的限制,其虚拟形象是由真人演员通过特效化妆和手绘实现。

世纪初,传统手绘逐渐被21CG、动作捕捉等技术取代,虚拟数字人步入探索阶段。该阶

段的虚拟数字人开始达到实用水平,但造价不菲,主要出现在影视娱乐行业,如数字替身、虚

拟偶像等。电影制作中的数字替身一般利用动作捕捉技术,真人演员穿着动作捕捉服装,脸上

点上表情捕捉点,通过摄像机、动作捕捉设备将真人演员的动作、表情采集处理,经计算机处

理后赋予给虚拟角色。

《指环王》中的角色咕噜就是由CG技术和动作捕捉技术产生,这些技术后续还在《加勒

比海盗》《猩球崛起》等电影制作中使用。之后日本还制作了第一个被广泛认可的虚拟数字人

“初音未来”,初音未来是二次元风格的少女偶像,早期的人物形象主要利用CG技术合

成,人物声音采用雅马哈的VOCALOID系列语音合成,呈现形式还相对粗糙。

近五年,得益于深度学习算法的突破,数字人的制作过程得到有效简化,虚拟数字人开始

步入正轨,进入初级阶段。该时期人工智能成为虚拟数字人不可分割的工具,智能驱动的数字

人开始崭露头角。

迈克斯·泰格在《生命LIFE3.0》一书中说,生命3.0是一个由人工智能重塑的时代。在这

个时代,我们可以设计自己的硬件和软件。

所谓的“像真人”,不外乎是运用“AI合成”技术。“虚拟主播”通过提取真人主播新闻播报视

频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建

模训练而成。

该项技术要能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表

情、唇动保持自然一致,展现与真人主播无异的信息传达效果。但在此之前,出现在大众媒体

上的虚拟主播,多半只有声音,或者匹配一个量身定制的虚拟形象,比如微软小冰在东方卫视

担任天气预报员就是如此。

要实现这样的效果,两大要求缺一不可。其一是高逼真度。要能够自动生成语音、表情、

唇动等信息完全一致的自然视频,并已达到商用级别。其二是低成本的个性化定制。小数据的

学习模型,使用少量用户真实音视频数据,快速迁移生成虚拟的分身模型,快速定制出高逼真

度的分身模型。最后,使用时输入一段文本,即可生成与真人无异的同步音视频。

除此之外,语音合成引擎和图像生成引擎也是重要的两点。在语音合成引擎中,基于用户

少量音频数据,使用语音合

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档