CN119832535A 一种基于多模态特征融合的视觉问答方法及其模型 (重庆邮电大学).docxVIP

  • 0
  • 0
  • 约1.26万字
  • 约 17页
  • 2026-07-05 发布于山西
  • 举报

CN119832535A 一种基于多模态特征融合的视觉问答方法及其模型 (重庆邮电大学).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119832535A

(43)申请公布日2025.04.15

(21)申请号202411900860.0

(22)申请日2024.12.23

(71)申请人重庆邮电大学

地址400065重庆市南岸区崇文路2号

(72)发明人黄胜陈洲

(51)Int.Cl.

G06V20/62(2022.01)

G06V30/186(2022.01)

G06V30/19(2022.01)

G06V10/82(2022.01)

G06N3/045(2023.01)

G06N3/0499(2023.01)

G06N3/08(2023.01)

G06V10/80(2022.01)

权利要求书2页说明书6页附图2页

(54)发明名称

一种基于多模态特征融合的视觉问答方法

及其模型

(57)摘要

CN119832535A本发明提出一种多模态特征融合的视觉问答方法,通过生成不同分辨率的图像,多尺度信息挖掘模块能够有效地提取不同尺度下的图像特征,从而提升图像理解的精度并通过多模态特征引导融合策略,将图像和文本特征高效结合,利用自注意力和交叉机制在特征层次深度交互,生成具有语义与视觉信息融合的特征表示,利用多模态特征融合后之后的数据特征,通过全连接神经网络和文本输入到大模型中获

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档