Med-GRIM：利用嵌入提示的多模态图 RAG 增强零样本医疗 VQA.pdfVIP

Med-GRIM：利用嵌入提示的多模态图 RAG 增强零样本医疗 VQA.pdf

Med-GRIM：利用嵌入提示的多模态图RAG增强零样本医疗VQA

RakeshRajMadavanAkshatKaimal

ShivNadarUniversityChennaiShivNadarUniversityChennai

rakessnuchennai.edu.inakshasnuchennai.edu.in

HashimFaisalChandrakalaS

ShivNadarUniversityChennaiShivNadarUniversityChennai

hashisnuchennai.edu.inchandrakalas@snuchennai.edu.in

本Abstract1.介绍

译

中多模态表示学习受到人类感知自然感觉整合的启

1发，在近年来获得了显著的发展。图像、文本和音频等

v大规模数据集的日益可用性，加上生成预训练的进步，

9加速了能够有效理解和处理多种模态信息的多功能编

4一组训练好的多模态编码器和视觉语言模型（VLM）已码器的发展[35,38]。多模态表示学习的一个突出应用

6成为视觉问答（VQA）任务的标准方法。然而，这样

0是视觉问答（VQA），这一任务要求模型理解并整合来

.的朴素模型往往无法生成复杂领域特定应用所需详细

8自视觉和文本两种模态的信息以回答关于图像的问题

0精确的回答，例如医学VQA。我们的表示模型绑定：

5BLIVA在tegratedwithDenseEncoding通过密集的查[3,4]。这项任务超越了简单的图像识别，挑战模型分

2析复杂的视觉线索并提取相关知识以生成准确的答案。

:询标记编码优化了先前多模态工作的联合嵌入空间，这

i种编码灵感来自对比预训练技术。这个优化过的编码在VQA的各种应用中，医学VQA作为一个特别

r器驱动着中位-严重程度评分方法，这是一个专为医学有影响力的用例脱颖而出。它旨在作为虚拟助手来辅

VQA任务设计的模型，它利用基于图的检索和提示工助临床决策，能够解释医学图像并回答诊断问题。然

程来整合领域特定知识。与依赖于在特定数据集上对视而，许多现有的VQA模型难以构建一个有效的联合嵌

觉和语言模型进行计算密集型微调不同，Med-GRIM入空间。这种低效通常源于预训练期间学习到的多模

应用了一个低计算量、模块化的流程，并使用小规模语态表示的任意性，这可能导致对齐不佳的嵌入，从而

言模型（SLMs）以提高效率。Med-GRIM利用基于提限制了模型的解释能力。为了解决这个问题，我们引

示的检索动态注入相关知识，确保其回答的准确性和入了BIND，这是一种专门机制，用于精炼和调整所学

鲁棒性。通过为VQA系统中的每个代理分配不同的角嵌入进入一个增强的空间。端到端的医疗视觉语言模

色，Med-GRIM实现了大型语言模型的性能，但计算型（VLM）通常在医学VQA数据集上进行指令微调。

更多 >