GMAT: 基于多智能体的临床描述生成以供文本编码器在视觉语言 MIL 中用于全幻灯片图像分类.pdfVIP

GMAT: 基于多智能体的临床描述生成以供文本编码器在视觉语言 MIL 中用于全幻灯片图像分类.pdf

GMAT:基于多智能体的临床描述生成以供文本编

码器在视觉语言MIL中用于全幻灯片图像分类

NgocBuiLamQuang,NamLeNguyenBinh,Thanh-HuyNguyen,Le

ThienPhucNguyen,QuanNguyen,andUlasBagci

AIVIETNAM,VietNam

CarnegieMellonUniversity,USA

UniversityofWisconsin-Madison

PTIT,VietNam

NorthwesternUniversity,USA

本Equalcontribution.

译

中

摘要多示例学习（MIL）是全幻灯片图像（WSI）分类的领先方法，能够高

v效地分析千兆像素的病理切片。近期的研究将视觉-语言模型（VLMs）引

3入MIL流水线中，通过基于文本的类别描述而不是简单的类名来融入医学

9知识。然而，当这些方法依赖大型语言模型（LLMs）生成临床描述或使用

1固定长度提示表示复杂的病理概念时，VLMs有限的标记容量经常限制了

0编码类别信息的表现力和丰富性。此外，仅由LLMs生成的描述可能缺乏

8领域基础和精细的医学具体性，导致与视觉特征对齐不佳。为了解决这些

5挑战，我们提出了一种具有两个关键贡献的视觉-语言MIL框架：(1)A基

2于地面的多智能体描述生成系统利用精心策划的病理学教科书和代理专业

v化（如形态、空间背景）来生成准确且多样化的临床描述；(2)A文本编码

i策略使用描述列表而不是单一提示，捕捉细粒度且互补的临床信号以更好

r地与视觉特征对齐。集成到VLM-MIL流水线中，我们的方法在单提示类

别基线上表现出更好的性能，并在肾癌和肺癌数据集上实现了与最先进的

模型相媲美的结果。

Keywords:多智能体系统·全切片图像(WSIs)·多实例学习(MIL)

·视觉语言模型(VLM)

1介绍

组织切片的病理检查仍然是癌症诊断的金标准，提供了细胞和结构异常

的高分辨率见解。然而，全幻灯片图像（WSIs）大小为几十亿像素，并且包

含复杂的异质性组织模式，使得手动审查既耗时又容易产生变异性。