Med-GRIM:利用嵌入提示的多模态图 RAG 增强零样本医疗 VQA.pdfVIP

  • 0
  • 0
  • 约3.52万字
  • 约 12页
  • 2025-10-16 发布于北京
  • 举报

Med-GRIM:利用嵌入提示的多模态图 RAG 增强零样本医疗 VQA.pdf

Med-GRIM:利用嵌入提示的多模态图RAG增强零样本医疗VQA

RakeshRajMadavanAkshatKaimal

ShivNadarUniversityChennaiShivNadarUniversityChennai

rakessnuchennai.edu.inakshasnuchennai.edu.in

HashimFaisalChandrakalaS

ShivNadarUniversityChennaiShivNadarUniversityChennai

hashisnuchennai.edu.inchandrakalas@snuchennai.edu.in

本Abstract1.介绍

中多模态表示学习受到人类感知自然感觉整合的启

1发,在近年来获得了显著的发展。图像、文本和音频等

v大规模数据集的日益可用性,加上生成预训练的进步,

6

9加速了能够有效理解和处理多种模态信息的多功能编

4一组训练好的多模态编码器和视觉语言模型(VLM)已码器的发展[35,38]。多模态表示学习的一个突出应用

6成为视觉问答(VQA)任务的标准方法。然而,这样

0是视觉问答(VQA),这一任务要求模型理解并整合来

.的朴素模型往往无法生成复杂领域特定应用所需详细

8自视觉和文本两种模态的信息以回答关于图像的问题

0精确的回答,例如医学VQA。我们的表示模型绑定:

5BLIVA在tegratedwithDenseEncoding通过密集的查[3,4]。这项任务超越了简单的图像识别,挑战模型分

2析复杂的视觉线索并提取相关知识以生成准确的答案。

:询标记编码优化了先前多模态工作的联合嵌入空间,这

v

i种编码灵感来自对比预训练技术。这个优化过的编码在VQA的各种应用中,医学VQA作为一个特别

x

r器驱动着中位-严重程度评分方法,这是一个专为医学有影响力的用例脱颖而出。它旨在作为虚拟助手来辅

a

VQA任务设计的模型,它利用基于图的检索和提示工助临床决策,能够解释医学图像并回答诊断问题。然

程来整合领域特定知识。与依赖于在特定数据集上对视而,许多现有的VQA模型难以构建一个有效的联合嵌

觉和语言模型进行计算密集型微调不同,Med-GRIM入空间。这种低效通常源于预训练期间学习到的多模

应用了一个低计算量、模块化的流程,并使用小规模语态表示的任意性,这可能导致对齐不佳的嵌入,从而

言模型(SLMs)以提高效率。Med-GRIM利用基于提限制了模型的解释能力。为了解决这个问题,我们引

示的检索动态注入相关知识,确保其回答的准确性和入了BIND,这是一种专门机制,用于精炼和调整所学

鲁棒性。通过为VQA系统中的每个代理分配不同的角嵌入进入一个增强的空间。端到端的医疗视觉语言模

色,Med-GRIM实现了大型语言模型的性能,但计算型(VLM)通常在医学VQA数据集上进行指令微调。

文档评论(0)

1亿VIP精品文档

相关文档