- 0
- 0
- 约3.52万字
- 约 12页
- 2025-10-16 发布于北京
- 举报
Med-GRIM:利用嵌入提示的多模态图RAG增强零样本医疗VQA
RakeshRajMadavanAkshatKaimal
ShivNadarUniversityChennaiShivNadarUniversityChennai
rakessnuchennai.edu.inakshasnuchennai.edu.in
HashimFaisalChandrakalaS
ShivNadarUniversityChennaiShivNadarUniversityChennai
hashisnuchennai.edu.inchandrakalas@snuchennai.edu.in
本Abstract1.介绍
译
中多模态表示学习受到人类感知自然感觉整合的启
1发,在近年来获得了显著的发展。图像、文本和音频等
v大规模数据集的日益可用性,加上生成预训练的进步,
6
9加速了能够有效理解和处理多种模态信息的多功能编
4一组训练好的多模态编码器和视觉语言模型(VLM)已码器的发展[35,38]。多模态表示学习的一个突出应用
6成为视觉问答(VQA)任务的标准方法。然而,这样
0是视觉问答(VQA),这一任务要求模型理解并整合来
.的朴素模型往往无法生成复杂领域特定应用所需详细
8自视觉和文本两种模态的信息以回答关于图像的问题
0精确的回答,例如医学VQA。我们的表示模型绑定:
5BLIVA在tegratedwithDenseEncoding通过密集的查[3,4]。这项任务超越了简单的图像识别,挑战模型分
2析复杂的视觉线索并提取相关知识以生成准确的答案。
:询标记编码优化了先前多模态工作的联合嵌入空间,这
v
i种编码灵感来自对比预训练技术。这个优化过的编码在VQA的各种应用中,医学VQA作为一个特别
x
r器驱动着中位-严重程度评分方法,这是一个专为医学有影响力的用例脱颖而出。它旨在作为虚拟助手来辅
a
VQA任务设计的模型,它利用基于图的检索和提示工助临床决策,能够解释医学图像并回答诊断问题。然
程来整合领域特定知识。与依赖于在特定数据集上对视而,许多现有的VQA模型难以构建一个有效的联合嵌
觉和语言模型进行计算密集型微调不同,Med-GRIM入空间。这种低效通常源于预训练期间学习到的多模
应用了一个低计算量、模块化的流程,并使用小规模语态表示的任意性,这可能导致对齐不佳的嵌入,从而
言模型(SLMs)以提高效率。Med-GRIM利用基于提限制了模型的解释能力。为了解决这个问题,我们引
示的检索动态注入相关知识,确保其回答的准确性和入了BIND,这是一种专门机制,用于精炼和调整所学
鲁棒性。通过为VQA系统中的每个代理分配不同的角嵌入进入一个增强的空间。端到端的医疗视觉语言模
色,Med-GRIM实现了大型语言模型的性能,但计算型(VLM)通常在医学VQA数据集上进行指令微调。
您可能关注的文档
- 刺针机器人:一种用于受限地下环境中自主钻探的自支撑机器人平台.pdf
- AutoMashup:自动音乐混搭创作.pdf
- 针对特定网络的多模态脑反应预测模型.pdf
- 一个新的视角看待无家可归问题:利用 311 呼叫和街景图像进行每日帐篷监测.pdf
- 无人机无线网络技术.doc
- 《氓》《孔雀东南飞》联读统编版高二语文选择性必修下册.pptx
- 2026届新高考语文三轮冲刺复习:小说文本阅读.pptx
- 2026届新高考语文三轮冲刺复习:信息类文本阅读备考策略.pptx
- 2026届新高考语文三轮冲刺复习:议论文“以联成文,多维联结”指导.pptx
- 2026届新高考物理冲刺热点复习——动能定理及其应用.pptx
原创力文档

文档评论(0)