网站大量收购独家精品文档,联系QQ:2885784924

揭秘数字人,让教师解放出来.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

揭秘数字人,让教师解放出来

摘要:数字人技术作为科技领域的新兴力量,融合了多种技术实现模拟真人,能在多场景中与人类交互,应用范围广泛。本文阐述了数字人技术原理,并提出,大模型与数字人的结合为教育带来新可能,其能拓展学生学习能力,增强学习交互性,提升知识共创力,为教师“减负”。同时文章也指出,数字人应用也存在安全隐忧,如引发伦理法律问题、数据隐私保护问题等,未来人类与数字人共存将面临新挑战。

中图分类号:G434文献标识码:A论文编号:1674-2117(2024)23-0000-05

从内涵界定来看,数字人目前并没有一个严格的定义。按照中国人工智能产业发展联盟《2020虚拟数字人白皮书》中的定义,数字人需要满足三点:一是要拥有人的外观;二是要拥有人的行为,如语言、口型、面部表情、肢体动作等;三是要拥有人的思想,如能识别外部环境、与人交互等。按照以上标准,我们常见的一些动画片、电影中的虚拟形象并不能算作数字人,因为它们虽然拥有人的外观和行为,但是不能识别外部环境,更不能与人进行交互。数字人形象是由多项技术综合集合而成的。其中,语音合成技术可以生成数字人的语音,表情生成技术可以生成数字人的表情,动作生成技术可以生成数字人的动作。随着技术的不断发展,数字人将变得更加逼真、自然、智能,越来越像真的“人”。

从应用范围来看,数字人技术已经在各行各业发挥着重要作用。例如,虚拟主播可以应用于新闻、直播、娱乐等领域;虚拟导购在商场、超市、博物馆等领域随处可见,一些旅游景区或者博物馆之类的地方,也会采用数字讲解员,其服务效果比冷冰冰的语音讲解器更有感染力,让人觉得更亲切;虚拟客服主要应用在银行、电信、运营商等领域,一个具有人类形象的数字客服会让咨询者感觉更为温暖,更愿意沟通交流解决问题;虚拟教师在教育、培训等领域也有很多应用。

数字人技术的基本原理

1.形象生成

形象生成是数字人技术的基石。它需要用计算机图形学、计算机视觉、语音合成等技术,构建逼真的图像、动作和声音,以塑造拟人形象。为了创建不同的虚拟形象,数字人可以用真人的2D视频或3D模型,也可借助生成对抗网络(GAN)等方法。GAN是一种用两个神经网络(生成器和判别器)互相对抗,从噪声中生成高质量图像的技术。数字人的人体建模,与人工智能模型不同,专业的人体建模涉及数据采集、特征提取、模型构建、姿态估计等复杂操作。目前,短视频制作多采用2D平面人体,仅仅是一个拍摄的视频。真正的3D人体建模因受制于成本、终端性能和应用场景等因素而应用较少。

数字人形象生成的关键技术有两个:一是面部表情捕捉,即通过高精度摄像头和传感器捕捉人脸的细微表情变化,并将这些数据转化为数字信号。具体方法包括使用各种细节数据和3D面部网格技术,通过深度学习模型生成高度逼真的面部表情。二是动作捕捉,即利用动作捕捉技术记录人类的身体动作,并将这些动作应用到数字人身上,使其表现出自然的肢体语言。两种技术常常结合使用标记点和无标记点捕捉系统,以及机器学习算法,来精确模拟人体运动。

设置两个判别器是因为设计者认为之前的唇音同步效果不佳,需要一个额外的判别器来判断唇音同步,这种做法使得唇音同步达到91%比例。讲完唇音同步判别器,剩下的一个生成器和一个判别器就跟常规的GAN差不多了。生成器由身份编码器、语音编码器和面部解码器三部分组成,其主要原理是通过一个专家鉴别器来训练,从真实视频学习的唇同步概念来强制生成器实现逼真的唇同步。[1]

2.语音克隆

语音克隆是数字人“说话”的关键技术,基于神经网络的语音合成技术(如Tacotron和WaveNet),将文字转化为自然流畅的语音,其逻辑关系为:声音数据样本→克隆算法→训练模型→模型推理(文本生成语音)。在完成语音克隆后,数字人就拥有了自己的声音模型,我们就可以输入文字,让模型帮你生成一段“模仿”你的语音,这个过程也叫TTS(TextToSpeech,文本转语音)。同时,为使数字人讲话更真实,还需要同步口型,使语音与视频中的人物口型匹配。

目前,许多公司的技术只需要通过参考一个小片段的音频,就能够精准复刻语音的情感、重音、节奏和语调,甚至能够跨越不同国家的语言,如MyShellAI开发的开源项目OpenVoice就是其中之一。OpenVoice语音克隆原理主要用到了一个TTS()模型+音色特征提取器(如图2),使用这种编码器+解码器的结构能够控制音频的合成,根据参考音频,最终实现复刻音色。

3.智能交互

智能交互是数字人核心技术之一,赋予数字人“灵魂”和生命力。它深度融合了自然语言处理、语音识别、图像识别及情感分析等尖端技术,实现了全方位、多模态的沟通体验。智能交互是数字人与用户进行沟通和对话的能力,它需要用自然语言处理、语音识别、图像识别、情感分析等技术,实现多模态的交互,包括语

文档评论(0)

std365 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档