CN119622559B 基于注意力和图增强文本的多模态情感分析方法及系统（山东交通学院）.docxVIP

下载本文档

0
0
约2.07万字
约 34页
2026-01-20 发布于重庆
举报

CN119622559B 基于注意力和图增强文本的多模态情感分析方法及系统（山东交通学院）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN119622559B(45)授权公告日2025.07.11

(21)申请号202510167640.X

(22)申请日2025.02.17

(65)同一申请的已公布的文献号申请公布号CN119622559A

(43)申请公布日2025.03.14

(73)专利权人山东交通学院

地址250000山东省济南市天桥区交校路5

号

(72)发明人朱振方任钰郅裴洪丽卢强李萌孙晓雯孟静张广渊

柴建勇赵大伟吕蕾陈竹敏

(74)专利代理机构济南圣达知识产权代理有限公司37221

专利代理师董雪

(51)Int.CI.

GO6F

GO6N

GO6V

18/2431(2023.01)

18/241(2023.01)

18/25(2023.01)

3/0455(2023.01)

3/042(2023.01)

3/0464(2023.01)

40/70(2022.01)

(56)对比文件

CN118364427A,2024.07.19CN117764086A,2024.03.26CN119248924A,2025.01.03CN119025885A,2024.11.26审查员刘璇

权利要求书5页说明书11页附图2页

(54)发明名称

基于注意力和图增强文本的多模态情感分析方法及系统

(57)摘要

CN119622559B本发明提出了基于注意力和图增强文本的多模态情感分析方法及系统，属于多模态情感分析技术领域；方法包括：获取视频数据中的文本特征、图像特征和语音特征并进行预处理；采用自适应跨模态交互模块计算文本特征与图像特征和语音特征之间的注意力权重，获取增强后的文本特征；将增强后的文本特征输入到分层多模态图融合网络中，利用自注意力机制构建邻接矩阵；将邻接矩阵和增强后的文本特征输入到跳跃连接图卷积网络中，获取最终特征矩阵；将所述特征矩阵和邻接矩阵进行结合，利用编码器和分类器获取情感分析的预测结果。解决不同模态之

CN119622559B

预测

分类头

HMGFN

预训练语言桶型

ACIM

嵌入层

根健特征斑C

NLP方法Tokeatzer

语音

预训练语吉模型

语音特征网C

嵌入层

ACIM

CN119622559B权利要求书1/5页

1.基于注意力和图增强文本的多模态情感分析方法，其特征在于，包括：

获取视频数据中的文本特征、图像特征和语音特征并进行预处理；其中，对于视频片段X,其由文本序列t、声学序列a和视觉序列v组成；

将预处理后的文本特征、图像特征和语音特征输入到训练好的多模态情感分析模型中，获取情感分析的预测结果；

其中训练好的多模态情感分析模型采用自适应跨模态交互模块计算文本特征与图像特征和语音特征之间的注意力权重，获取增强后的文本特征，包括：

采用自适应跨模态交互模块将所述图像特征和语音特征映射成统一的索引序列；其中，采用自适应跨模态交互模块将所述图像特征和语音特征映射成统一的索引序列的过程包括：

获取视频数据中的图像帧和语音帧，并构建特征集；

采用k-means方法对图像帧和语音帧进行聚类，通过聚类中心，构建视觉词汇和听觉词汇，将图像特征和语音特征通过聚类中心进行词汇化，使得索引序列与文本序列的离散词汇形式相匹配；

将特征序列转化为索引，具体的，给定一个特征序列需要将其转换为对应的索引序列In∈RLn;对于第i帧的,其索引通过以下方式计算：

找到距离最近的聚类中

的索引j;|I-2为计算特征与聚类中心之间的欧氏距离；最终得到索引序列

作为模态n的表示；

利用跨模态注意力机制对索引向量进行处理，计算文本特征与图像特征和语音特征之间的注意力权重，获取增强后的文本特征；

其中，利用跨模态注意力机制对索引向量进行处理，计算文本特征与图像特征和语音特征之间的注意力权重，获取增强后的文本特征，包括：

通过嵌入层将离散的索引序列映射为连续的高维向量表示；

En=Embedding(In)∈RLn×dn

其中En为嵌入层的输出，dn为嵌入维度；Embedding为嵌入层函数；Ln表示模态的序列长度；

CN119622559B 基于注意力和图增强文本的多模态情感分析方法及系统（山东交通学院）.docxVIP