CN119475099B 一种基于大模型的多模态情感分析与交互调适方法及系统（山东浪潮科学研究院有限公司）.docxVIP

下载本文档

0
0
约1.57万字
约 24页
2026-01-19 发布于重庆
举报

CN119475099B 一种基于大模型的多模态情感分析与交互调适方法及系统（山东浪潮科学研究院有限公司）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN119475099B(45)授权公告日2025.07.08

(21)申请号202510025730.5

(22)申请日2025.01.08

(65)同一申请的已公布的文献号申请公布号CN119475099A

(43)申请公布日2025.02.18

(73)专利权人山东浪潮科学研究院有限公司地址250000山东省济南市高新区浪潮路

1036号S02号楼

(72)发明人武寒波段强李锐魏子重

姜凯

(74)专利代理机构济南信达专利事务所有限公

司37100专利代理师孙晶伟

(51)Int.CI.

GO6F18/2415(2023.01)

GO6F18/25(2023.01)

GO6N3/0455(2023.01)

GO6N3/0895(2023.01)

GO6V20/40(2022.01)

GO6F40/284(2020.01)

GO6F40/30(2020.01)

G10L25/63(2013.01)

(56)对比文件

CN118898046A,2024.11.05

ZebangChenget.al..“SZTU-CMUatMER2024:ImprovingEmotion-LLaMAwith

Conv-AttentionforMultimodalEmotion

Recognition”.《MRAC24:Proceedingsofthe2ndInternationalWorkshoponMultimodalandResponsibleAffectiveComputing》

.2024,第78-87页.

审查员周雯

权利要求书3页说明书8页附图1页

(54)发明名称

一种基于大模型的多模态情感分析与交互调适方法及系统

(57)摘要

CN119475099B本发明公开一种基于大模型的多模态情感分析与交互调适方法及系统，涉及人工智能和自然语言处理技术领域；包括：步骤1:采集对话视频数据，对视频数据进行预处理，步骤2:分别根据视频帧、音频和文本进行图像特征提取、语音特征提取和文本特征提取，步骤3:每两种模态特征通过交叉注意力机制进行交互融合，交互融合后的特征经过平均池化处理后输入多层感知机进行情感分类，获取最高概率对应的类别为情感标签识别结果，步骤4:根据识别结果中情感标签，指定情感调适的要求，生成对应的对话策略，根据对话策略进行交互，同时根据情感标签的变

CN119475099B

步骤1:采集对话视频数据，对视频数据进行预

步骤1:采集对话视频数据，对视频数据进行预处理

步骤2:分别根据视频帧、音频和文本进行图像特征提取、语音特征提取和文本特征提取

步骤3:获取最高概率对应的类别为情感标签识别结果

步骤4:根据识别结果中情感标签，指定情感调

适的要求，生成对应的对话策略，根据对话策略

进行交互，同时根据情感标签的变化动态调整对

话策略

CN119475099B权利要求书1/3页

1.一种基于大模型的多模态情感分析与交互调适方法，其特征是包括：

步骤1:采集对话视频数据，对视频数据进行预处理：分别提取与处理视频帧、音频和文本；

步骤2:分别根据视频帧、音频和文本进行图像特征提取、语音特征提取和文本特征提取；

步骤3:对于每种模态X,X表示文本特征T、语音特征A和图像特征I中的任意一种，生成

对应的查询向量Qx,键向量Kx、值向量Vx,通过如下公式表示：

Qx=WQX+bQ,

Kx=WKX+bk,

Vx=WX+by,

WQ,WK,Wv是可学习的权重矩阵，bQ,bK,bv是偏置项，基于交叉注意力机制进行任意两种模态之间的融合，其中文本特征T对应的(QT,KT,VT)和语音特征A对应的(QA,KA,VA)进行两种模态之间交叉注意力计算获得AttentionT,A,文本特征T对应的(QT,KT,

VT)和图像特征I对应的(Q,K,V)进行两种模态之间交叉注意力计算获得AttentionT,1;语音特征A对应的(QA,KA,VA)和文本特征T对应的(QT,KT,VT)进行两种模态之间交叉注意力计算获得Attent

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN119475099B 一种基于大模型的多模态情感分析与交互调适方法及系统（山东浪潮科学研究院有限公司）.docxVIP