CN119293740A 一种多模态对话情感识别方法（南京信息工程大学）.docxVIP

下载本文档

0
0
约2.02万字
约 32页
2026-01-24 发布于重庆
举报

CN119293740A 一种多模态对话情感识别方法（南京信息工程大学）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119293740A(43)申请公布日2025.01.10

(21)申请号202411833608.2

(22)申请日2024.12.13

(71)申请人南京信息工程大学

地址211899江苏省南京市江北新区宁六

路219号

GO6VGO6VGO6NGO6NGO6V

40/10(2022.01)10/80(2022.01) 3/0455(2023.01)3/08(2023.01)

10/82(2022.01)

(72)发明人蔡创新潘志庚邹宇林贤煊夏先亮张考胡志华李昌利张婧王爽

(74)专利代理机构南京纵横知识产权代理有限公司32224

专利代理师蔡志庆

(51)Int.CI.

GO6F18/25(2023.01)

GO6F18/241(2023.01)

GO6V40/16(2022.01)

权利要求书4页说明书11页附图1页

(54)发明名称

一种多模态对话情感识别方法

(57)摘要

CN119293740A本发明公开了一种多模态对话情感识别方法，涉及多模态情感识别和人机交互技术领域，包括：利用人脸识别模型和姿态识别工具分别得到表情时序特征和姿态时序特征；注意力模块对表情和姿态特征进行自适应加权融合，获得融合的视觉模态特征；构建上下文语境信息的新表达并基于提示的情感建模技术得到情感表示并通过文本编码器提取文本模态特征；使用数据向量化模型提取说话者对应语音的模态特征；提出跳跃连接多头注意力跨模态融合方法，对多模态的模态特征进行跨模态对齐与融合，之后通过情感分类器模块进行情感识别。本发明有效解决了传统多模态情感识别中关键情感线索识别不足及

CN119293740A

视频模态

视频模态v;

获取人脸和姿态的图像序列S,M

FPA模块提取视

开始

多模态数据采集

构建多模态交互

式会话列表U

文本模态t

PEMT模块提取文

本特征F

SMA模块进行跨

模态多特征融合

情感分类器

结束

音频模态a

data2vec模块提取音频特征F

觉特征

CN119293740A权利要求书1/4页

1.一种多模态对话情感识别方法，其特征是，包括：

构建多模态交互式对话列表U;

基于人脸识别模型SFace和姿态识别工具Mediapipe在多模态交互式对话列表U中的一个视频片段vi上分别得到表情时序特征Zs和姿态时序特征Zm;

基于人脸姿态注意力模块FPA对表情时序特征Zs和姿态时序特征Zm进行融合，得到最终的视觉模态特征F;

构建上下文语境信息的新表达Ci并通过提示的情感建模技术PEMT得到情感表示Ei,将情感表示Ei输入至文本编码器SimCSE得到文本模态特征F;

根据多模态交互式对话列表U中的每条话语Ui对应的语音片段ai进行等间隔采样，将采样数据输入至数据向量化模型data2vec提取语音特征，聚合所有帧的语音特征得到语音模态特征F;

将视觉模态特征F、文本模态特征F和语音模态特征Fa输入至跳跃连接多头注意力模块SMA对多模态信息进行融合，得到跨模态融合注意力输出Fatt;

对跨模态融合注意力输出Fatt进行非线性变换，将非线性变换后的特征Fc输入至情感分类器，生成情感类别的预测概率分布向量父。

2.根据权利要求1所述的多模态对话情感识别方法，其特征是，所述构建多模态交互式对话列表U包括：采集由多个参与者参与的多轮对话的多模态对话数据，并对多模态对话数据进行预处理，最后构建多模态交互式对话列表U,

所述多模态交互式对话列表U包括多条话语Ui,其中每条话语Ui包含一个文本记录i、一个视频片段vi和一个语音片段ai,

所述多模态交互式对话列表U的表达式为：U={u?,U?,U?,…,Ui,…,Un,},

每条所述话语Ui的表达式为：Ui={ti,V;,ai},

其中，i表示话语的序号，取值范围为1-n,n表示整个多模态交互式对话列表U中的话语总数，每条话语Ui对应的说话者为Pi。

3.根据权利要求2所述的多模态对话情感识别方法，其特征是，所述基于人脸识别模型SFace和姿态识别工具Mediapipe在多模态交互式对话列表U中的一个视频片段vi上分别得到表情时序特征Zs和姿态时序特征Zm包括：

CN119293740A 一种多模态对话情感识别方法（南京信息工程大学）.docxVIP