一种基于多任务训练的图像描述和问答方法.pdfVIP

  • 1
  • 0
  • 约1.11万字
  • 约 10页
  • 2023-08-09 发布于四川
  • 举报

一种基于多任务训练的图像描述和问答方法.pdf

一种基于多任务训练的图像描述和问答方法,涉及计算机视觉和计算机语言。使用BLIP预训练模型,载入大规模图文数据集预训练;预处理图像描述数据和图像问答数据,使用标识符区分输入数据,图像描述、图像问答两个任务在同一框架下实现;构建多任务模型,使用多模态图像文本特征提取,图像经过视觉特征提取模块成为视觉向量,作为注意力输入到文本特征提取模块之中;文本使用LM损失函数,使模型学习文本的输出内容;根据模型训练的任务计算对应的损失函数及权重:动态学习分配多个任务的损失权重,调整最优学习方式。在同一个模型下实

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116561368 A (43)申请公布日 2023.08.08 (21)申请号 202310662783.9 (22)申请日 2023.06.06 (71)申请人 厦门大学

文档评论(0)

1亿VIP精品文档

相关文档