AURA：一个用于理解、推理与注释的多模态医疗代理-计算机科学-AI 代理-视觉-语言基础模型.pdfVIP

下载本文档

0
0
约1.64万字
约 12页
2025-07-30 发布于北京
举报
版权申诉

AURA：一个用于理解、推理与注释的多模态医疗代理-计算机科学-AI 代理-视觉-语言基础模型.pdf

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

AURA：一个用于理解、推理与注释的多模态医疗

代理

NimaFathi,AmarKumar,andTalArbel

CenterforIntelligentMachines,McGillUniversity,Montreal,Canada

Mila-QuebecAIinstitute,Montreal,Canada

nima.fathi@mila.quebec

摘要大型语言模型（LLMs）的最近进展促进了从静态预测系统到代理AI

本的范式转变——这些智能代理能够推理、与工具互动并适应复杂任务。

译尽管LLM代理系统在许多领域显示出前景，但其在医学成像领域的应用

中仍处于起步阶段。

在这项工作中，我们介绍了Aura，这是首个专为全面分析、解释和评估医

v学图像设计的视觉语言可解释性代理。

0通过实现动态交互、情景化解释和假设检验，Aura代表了向更加透明、适

4应性和临床对齐的人工智能系统的重大进步。

6这项工作突显了代理AI在将医疗影像分析从静态预测转变为互动决策支

1持方面的潜力。

7借助基于LLM的架构Qwen-32B，Aura集成了一个模块化的工具箱，包

5括：(i)包含相位定位、病理分割和解剖结构分割的分段套件，以定位具有

2临床意义的区域；(ii)一种反事实图像生成模块，支持通过图像级解释进

v行推理；以及(iii)一套评估工具，包括像素级差异图分析、分类及先进的

i最先进组件，用于评估结果的诊断相关性和视觉可解释性。

我们的代码可以通过项目网站访问。

Keywords:AI代理·反事实图像生成·可解释性·生成建模·视觉-

语言基础模型。

1介绍

传统的人工智能模型在医学影像领域经常无法满足实际临床实践的需

求。理想情况下，人工智能系统应该能够独立推理，识别出何时缺乏足够的

背景信息，并动态地使用各种工具——这就像临床医生在复杂的诊断场景中

3https://nimafathi.github.io/AURA/

2N.Fathietal.

所做的那样。然而，传统的医学影像AI通常是刚性的，专为特定任务设计，

具有固定的输入和输出。这种灵活性的缺失使得这些系统无法适应变化的临

床情况。当面对模糊的发现、不熟悉的疾病或不完整的信息时，这些模型不

能要求提供额外细节、收集更多信息或修订其结论[22,23]。因此，它们在可

解释性、适应性和获得临床信任方面都表现不足。代理人工智能提供了有希

望的替代方案，提供的不仅是能够处理特定任务的模型，还能够在不确定性

中进行推理，生成清晰的视觉和语言解释（VLEs），通过反事实模拟测试假

设，并与临床医生互动协作。通过

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

AURA：一个用于理解、推理与注释的多模态医疗代理-计算机科学-AI 代理-视觉-语言基础模型.pdfVIP