CN120259499A 一种基于ai语言大模型的智能多模态虚拟数字人交互系统、交互方法及应用（华东师范大学）.docxVIP

下载本文档

0
0
约4.05万字
约 59页
2026-01-16 发布于重庆
举报
版权申诉

CN120259499A 一种基于ai语言大模型的智能多模态虚拟数字人交互系统、交互方法及应用（华东师范大学）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120259499A(43)申请公布日2025.07.04

(21)申请号202510298995.2

(22)申请日2025.03.13

(71)申请人华东师范大学

地址200241上海市闵行区东川路500号

(72)发明人曹逸飞王江涛徐刚

(74)专利代理机构上海麦其知识产权代理事务所(普通合伙)31257

专利代理师董红曼

(51)Int.CI.

GO6N

GO6F

H04N

G10L

10/60(2022.01)3/0985(2023.01)

3/084(2023.01)

3/096(2023.01)

40/35(2020.01)

21/8358(2011.01)25/30(2013.01)

25/63(2013.01)15/18(2013.01)

GO6T13/40(2011.01)

GO6T13/80(2011.01)

GO6N5/04(2023.01)

GO6N5/022(2023.01)

GO6N3/0455(2023.01)

GO6N3/0475(2023.01)

权利要求书3页说明书22页附图5页

(54)发明名称

一种基于AI语言大模型的智能多模态虚拟数字人交互系统、交互方法及应用

(57)摘要

CN120259499A本发明公开了一种基于AI语言大模型的智能多模态虚拟数字人交互系统，包括：高真实性面部生成模块；所述高真实性面部生成模块使用AdaAN网络，基于自适应特征融合和语音驱动，以及语音特征的时间序列建模，提取出与语音相关的特征信息，提取的语音特征通过深度神经网络进行处理，确保语音与面部表情在时空上高度对齐，采集生物电信号并将信号映射到面部肌肉运动，生成最终面部表情，与用户进行交互；所述系统还包括：智能交互模块、训练优化与高效生成模块、高效集成模块、多模态数据采集模块、AI大模型核心处理模块、数字人形象生成与驱动模块、交互场景适配模块、反馈优化模块。本发明还公开了

CN120259499A

CN120259499A权利要求书1/3页

1.一种基于AI语言大模型的智能多模态虚拟数字人交互系统，其特征在于，包括：高真实性面部生成模块；所述高真实性面部生成模块使用AdaAN网络，基于自适应特征融合和语音驱动，以及语音特征的时间序列建模，提取出与语音相关的特征信息，提取的语音特征通过深度神经网络进行处理，确保语音与面部表情在时空上高度对齐，采集生物电信号并将信号映射到面部肌肉运动，生成最终面部表情，与用户进行交互。

2.如权利要求1所述的交互系统，其特征在于，还包括：智能交互模块、训练优化与高效生成模块、高效集成模块、多模态数据采集模块、AI大模型核心处理模块、数字人形象生成与驱动模块、交互场景适配模块、反馈优化模块；

所述交互系统基于AI语言大模型，结合多模态数据采集、语音与面部表情同步生成、智能交互、知识库支持以及实时反馈优化技术，确保数字人能够真实、自然地响应用户的情感与意图，并根据不同场景和环境动态调整交互策略，为用户提供高度个性化的虚拟数字人交互体验，实现高效、流畅的互动和情感表达。

3.如权利要求1所述的交互系统，其特征在于，所述AdaAN网络通过下式定义：

F′=T(F,S)=W·F+b,W∈R×,b∈R,

其中，S表示语音特征，F表示面部特征，T表示变形修复函数，W表示动态生成的自适应权重矩阵，b表示生成器-判别器对抗训练优化的偏置项，N表示维度；

通过变换矩阵将语音特征映射为面部表情特征：

Z表青=A·Z语+B,

其中，Z表示语音特征，Z表表示面部表情特征，A表示AdaAN网络动态生成的变换矩阵，B表示对抗训练优化的偏置项；和/或，

在生物电信号和面部肌肉运动之间建立映射，转化为表情参数表示如下：

P表青=f(EEG,EMG)=WEEG·EEG+WEMG·EMG+b,

其中，EEG表示脑电信号，EMG表示肌电信号，WEEC表示端到端训练的脑电特征权重矩阵，WEMC表示端到端训练的肌电特征权重矩阵，b表示动态校准的偏置项；和/或，

所述AdaAN网络设置有抗干扰机制，表示如下式

您可能关注的文档

文档评论（0）

xm + 关注: 实名认证

文档贡献者

专业学习资料，专业文档

咨询Ta 进入空间

1亿VIP精品文档

更多 >

CN120259499A 一种基于ai语言大模型的智能多模态虚拟数字人交互系统、交互方法及应用（华东师范大学）.docxVIP