- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE
百度数字人
白皮书
前言
在人工智能、虚拟现实等新技术浪潮的带动下,虚拟数字人制作过程得到有效简化、各方面性能获得飞跃式提升,开始从外观的数字化逐渐深入到行为的交互化、思想的智能化。以虚拟偶像、虚拟主播、数字员工等为代表的数字人,已经成功进入大众视野,开始活跃在大家身边。例如,国家出版总局已经赋予“虚拟数字人”与主播等同的身份,传媒机构也开始广泛应用数字主播。
百度作为一家拥有强大互联网基础的领先AI公司,在数年前就预见到数字人的应用潜力,研发了自己的数字人平台,如今已在金融、传媒、影视、游戏、文旅、教育等多个行业实现规模化智能应用。其基于语音、语义和图像等AI技术,以智能终端为载体,实现人机交互可视化语音交互服务和内容生产服务。通过多模交互能力,有效提升用户体验、降低人力成体,提成服务质量和效率。其带人像的多模交互能力可有效提升用户体验,常被用于线下迎宾、电子流助理、智能客服或智慧销售场景;同时其内容生产能力可减少生产成本,可被用于事件营销创意、个性化视频创意以及对话式的培训教材生成。
本白皮书详细介绍了百度数字人的产品构架,AI引擎,数字员工平台,智能终端以及性能指标。
目录CONTENTS
TOC\o1-3\h\z\u一、数字人概括 1
1.1数字人是什么 1
1.2数字人发展历程 1
1.3数字人优势 2
1.4数字人应用 2
二、主要产品构架 7
2.1总体方案架构:支持行业应用的产品矩阵 7
2.2主要工程架构 8
2.3架构对接方案 9
2.4百度数字人产品优势 10
三、数字员工综合AI引擎 11
3.1人脸识别 11
3.2基于自然语言处理的NGD引擎 12
3.3ASR语音识别 13
3.4TTS语音合成 15
3.5TTS驱动虚拟人像合成 16
3.6感知交互 17
四、数字员工平台 18
4.1多风格人物建模平台 18
4.2数字员工SCE 19
4.3数字员工console 21
4.4语言模型自训练平台 21
4.5智能对话服务平台 22
五、数字员工应用场景 24
5.1金融 24
5.2展厅 25
5.3零售 25
六、数字员工智能终端方案 27
6.1线上流量 27
6.2线下设备 27
七、硬件规格建议 28
7.1数字员工人像/语音引擎参考硬件 28
7.2数字员工智能交互坐席参考硬件 29
7.3数字员工智能交互屏参考硬件 30
7.4性能指标 32
7.5集成部署方案 32
PAGE1
一、数字人概括
1.1数字人是什么
“虚拟数字人”一词最早源于1989年美国国立医学图书馆发起的“可视人计划”(VisibleHumanProject,YHP)。
虚拟数字人(以下简称“数字人”)是指具有数字化外形的虚拟人物。与具备实体的机器人不同,虚拟数字人依赖显示设备存在。虚拟数字人宜具备以下三方面特征:一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。
1.2数字人发展历程
虚拟数字人的发展与其制作技术的进步密不可分,从最早的手工绘制到现在的CG(ComputerGraphics,电脑绘图)、人工智能合成,虚拟数字人大致经历了萌芽、探索、初级和成长四个阶段,详见图1-1。
图1-1数字人发展历程
20世纪80年代,人们开始尝试将虚拟人物引入到现实世界中,虚拟数字人步入萌芽阶段;21世纪初,传统手绘逐渐被CG、动作捕捉等技术取代,虚拟数字人步入探索阶段;近五年,得益于深度学习算法的突破,数字人的制作过程得到有效简化,虚拟数字人开始步入正轨,进入初级阶段;当前,虚拟数字人正朝着智能化、便捷化、精细化、多样化发展,步入成长期。
1.3数字人优势
相对于文本和语音交互技术,数字人交互的价值具体体现在:真实,效率,情感。数字人最重要的价值是给用户提供更真实自然的交互方式,更加人性化。比如在教育场景,数字人可以做老师的虚拟形象,跟学生互动,提升学习的积极性和体验。
此外,从交互效率的角度来看,文本和语音都有局限。文本交互需要打字,语音可能会丢失信息(比如嘈杂环境下)。而但数字人可以多方位获取信息,将身份识别、手势识别、情感识别等信息包含进来,有更强的场景适应性,增加多媒体面板以富媒体的形式表达信息,提高交互效率。?
再者,数字人是非常
文档评论(0)