使用基于图的知识对视觉语言模型进行微调以实现可解释的医学影像分析.pdfVIP

使用基于图的知识对视觉语言模型进行微调以实现可解释的医学影像分析.pdf

使用基于图的知识对视觉语言模型进行微调以实现可

解释的医学影像分析

ChenjunLi,LaurinLux,AlexanderH.Berger,MartinJ.Menten,

MertR.Sabuncu,andJohannesC.Paetzold

SchoolofElectricalandComputerEngineering,CornellUniversity,Ithaca,NY

14853,USA

SchoolofComputation,InformationandTechnology,TechnicalUniversityof

Munich,80333Munich,Germany

CornellTech,NewYork,NY10044,USA

本WeillCornellMedicine,NewYork,NY10021,USA

译cl2733@;jpaetzold@

中

v摘要准确的糖尿病视网膜病变（DR）分期对于指导及时干预和预防视力

8丧失至关重要。然而，目前的分期模型几乎不可解释，并且大多数公共数据

8集除了图像级别标签外不包含任何临床推理或解释。本文提出了一种将图

9表示学习与视觉语言模型（VLMs）相结合的新方法，以提供可解释的DR

0.诊断。我们的方法利用光学相干断层扫描血管成像（OCTA）图像，通过构

3建生物信息图来编码关键视网膜血管特征，如血管形态和空间连接性。然

5后，一个图神经网络（GNN）执行DR分期，同时集成梯度突出显示驱动

2分类决策的关键节点、边及其个体特征。我们收集这种基于图的知识，将

v模型的预测归因于生理结构及其特性。然后我们将这种推理转化为VLMs

x的文字描述。通过这些文字描述和对应的图像进行指令微调训练一个学生

r视觉语言模型。最终代理仅根据单个图像输入就能分类疾病并以人类可解

释的方式说明其决策。实验评估在专有和公共数据集上表明，我们的方法

不仅提高了分类准确性，还提供了更具临床解释性的结果。专家研究进一

步证明，我们的代理提供更准确的诊断解释，并能够在OCTA图像中准确

定位病变位置。

Keywords:视觉语言模型·图学习·DR·OCTA.

1介绍

糖尿病性视网膜病变（DR）仍然是视力丧失的主要原因之一，其早期

检测和分期可以显著降低失明的风险[10]。早期研究表明，在彩色眼底图像

2C.Lietal.

上使用深度学

更多 >