CN119832535A 一种基于多模态特征融合的视觉问答方法及其模型（重庆邮电大学）.docxVIP

下载本文档

0
0
约1.26万字
约 17页
2026-07-05 发布于山西
举报

CN119832535A 一种基于多模态特征融合的视觉问答方法及其模型（重庆邮电大学）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119832535A

(43)申请公布日2025.04.15

(21)申请号202411900860.0

(22)申请日2024.12.23

(71)申请人重庆邮电大学

地址400065重庆市南岸区崇文路2号

(72)发明人黄胜陈洲

(51)Int.Cl.

G06V20/62(2022.01)

G06V30/186(2022.01)

G06V30/19(2022.01)

G06V10/82(2022.01)

G06N3/045(2023.01)

G06N3/0499(2023.01)

G06N3/08(2023.01)

G06V10/80(2022.01)

权利要求书2页说明书6页附图2页

(54)发明名称

一种基于多模态特征融合的视觉问答方法

及其模型

(57)摘要

CN119832535A本发明提出一种多模态特征融合的视觉问答方法，通过生成不同分辨率的图像，多尺度信息挖掘模块能够有效地提取不同尺度下的图像特征，从而提升图像理解的精度并通过多模态特征引导融合策略，将图像和文本特征高效结合，利用自注意力和交叉机制在特征层次深度交互，生成具有语义与视觉信息融合的特征表示，利用多模态特征融合后之后的数据特征，通过全连接神经网络和文本输入到大模型中获

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN119832535A 一种基于多模态特征融合的视觉问答方法及其模型（重庆邮电大学）.docxVIP