CN120259499A 一种基于ai语言大模型的智能多模态虚拟数字人交互系统、交互方法及应用 (华东师范大学).docxVIP

CN120259499A 一种基于ai语言大模型的智能多模态虚拟数字人交互系统、交互方法及应用 (华东师范大学).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120259499A(43)申请公布日2025.07.04

(21)申请号202510298995.2

(22)申请日2025.03.13

(71)申请人华东师范大学

地址200241上海市闵行区东川路500号

(72)发明人曹逸飞王江涛徐刚

(74)专利代理机构上海麦其知识产权代理事务所(普通合伙)31257

专利代理师董红曼

(51)Int.CI.

GO6N

GO6N

GO6N

GO6N

GO6F

H04N

G10L

G10L

G10L

10/60(2022.01)3/0985(2023.01)

3/084(2023.01)

3/096(2023.01)

40/35(2020.01)

21/8358(2011.01)25/30(2013.01)

25/63(2013.01)15/18(2013.01)

GO6T13/40(2011.01)

GO6T13/80(2011.01)

GO6N5/04(2023.01)

GO6N5/022(2023.01)

GO6N3/0455(2023.01)

GO6N3/0475(2023.01)

权利要求书3页说明书22页附图5页

(54)发明名称

一种基于AI语言大模型的智能多模态虚拟数字人交互系统、交互方法及应用

(57)摘要

CN120259499A本发明公开了一种基于AI语言大模型的智能多模态虚拟数字人交互系统,包括:高真实性面部生成模块;所述高真实性面部生成模块使用AdaAN网络,基于自适应特征融合和语音驱动,以及语音特征的时间序列建模,提取出与语音相关的特征信息,提取的语音特征通过深度神经网络进行处理,确保语音与面部表情在时空上高度对齐,采集生物电信号并将信号映射到面部肌肉运动,生成最终面部表情,与用户进行交互;所述系统还包括:智能交互模块、训练优化与高效生成模块、高效集成模块、多模态数据采集模块、AI大模型核心处理模块、数字人形象生成与驱动模块、交互场景适配模块、反馈优化模块。本发明还公开了

CN120259499A

CN120259499A权利要求书1/3页

2

1.一种基于AI语言大模型的智能多模态虚拟数字人交互系统,其特征在于,包括:高真实性面部生成模块;所述高真实性面部生成模块使用AdaAN网络,基于自适应特征融合和语音驱动,以及语音特征的时间序列建模,提取出与语音相关的特征信息,提取的语音特征通过深度神经网络进行处理,确保语音与面部表情在时空上高度对齐,采集生物电信号并将信号映射到面部肌肉运动,生成最终面部表情,与用户进行交互。

2.如权利要求1所述的交互系统,其特征在于,还包括:智能交互模块、训练优化与高效生成模块、高效集成模块、多模态数据采集模块、AI大模型核心处理模块、数字人形象生成与驱动模块、交互场景适配模块、反馈优化模块;

所述交互系统基于AI语言大模型,结合多模态数据采集、语音与面部表情同步生成、智能交互、知识库支持以及实时反馈优化技术,确保数字人能够真实、自然地响应用户的情感与意图,并根据不同场景和环境动态调整交互策略,为用户提供高度个性化的虚拟数字人交互体验,实现高效、流畅的互动和情感表达。

3.如权利要求1所述的交互系统,其特征在于,所述AdaAN网络通过下式定义:

F′=T(F,S)=W·F+b,W∈R×,b∈R,

其中,S表示语音特征,F表示面部特征,T表示变形修复函数,W表示动态生成的自适应权重矩阵,b表示生成器-判别器对抗训练优化的偏置项,N表示维度;

通过变换矩阵将语音特征映射为面部表情特征:

Z表青=A·Z语+B,

其中,Z表示语音特征,Z表表示面部表情特征,A表示AdaAN网络动态生成的变换矩阵,B表示对抗训练优化的偏置项;和/或,

在生物电信号和面部肌肉运动之间建立映射,转化为表情参数表示如下:

P表青=f(EEG,EMG)=WEEG·EEG+WEMG·EMG+b,

其中,EEG表示脑电信号,EMG表示肌电信号,WEEC表示端到端训练的脑电特征权重矩阵,WEMC表示端到端训练的肌电特征权重矩阵,b表示动态校准的偏置项;和/或,

所述AdaAN网络设置有抗干扰机制,表示如下式

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档