MEDFACT-R1：通过伪标签增强实现事实性医学推理.pdfVIP

下载本文档

0
0
约1.7万字
约 6页
2026-02-27 发布于北京
举报

MEDFACT-R1：通过伪标签增强实现事实性医学推理.pdf

MEDFACT-R1：通过伪标签增强实现事实性医学推理

∗

GengliangLI,RongyuCHEN,BinLI,LinlinYANG,GuodongDING

Baosight,NUS,SIAT,CAS,CUC,Microsoft,ANU

ABSTRACT错误是不可接受的。克服这些挑战对于开发能够实现

可靠性能的深度学习系统至关重要，在现实世界的临

确保事实一致性及可靠的推理仍然是医疗视觉语言模

床实践中[1]。

型面临的重大挑战。我们引入了MedFact-R1，这

是一种两阶段框架，结合外部知识关联与强化学最近，大规模的视觉语言模型（VLMs）[2,3,4]迅

猛发展，正在改变各行各业。它们在医疗领域的扩展

本习以提升事实性医学推理。第一阶段使用伪标签

译监督微调（SFT）来整合外部事实性专业知识；而显示出了巨大的潜力，近期的努力[5]整理了医学数

据集，并对VLMs进行了微调以适应专业应用。然而，

中第二阶段则应用带有四个定制化事实奖励信号的

事实可靠性仍然是一个主要障碍：现有模型常常会在

1组相对策略优化（GRPO），鼓励自我一致性的推

v理。在三个公共医疗问答基准测试中，MedFact-高风险场景中生成幻觉和事实错误。为了解决这一问

4题，RULE[1]引入了一种风险控制的检索增强生成

5R1相比之前的最先进的方法，在事实准确性上最

1（RAG）方法，该方法平衡了外部检索与内部知识，从

5多提升了%个百分点。消融研究强调了伪标

而显著提高了事实准确性。

1签SFT冷启动的必要性，并验证了每个GRPO奖

9励的贡献，突出了知识关联与基于RL驱动推理之同时，许多后训练工作成功地挖掘了视觉语言模

5间的协同作用，以建立可信的医疗AI。代码发布在型的知识和潜力，其中先进的强化学习（RL）已成为

2/Garfieldgengliang/MEDFACT-一个显著的例子。与通过下一个标记预测的监督学习

vR1。不同，强化学习使用奖励信号优化任务策略而不依赖

x于详细的标注。GRPO[6,7]是最先进的RL后训练

aIndexTerms—医学视觉语言模型，事实性医疗方法之一，在推广方面超越了监督微调，因为它解锁

推理，伪标签，GRPO

了推理中的“顿悟”时刻[4]，这使其与先前的方法如

PPO[8]、DPO[9]和传统方法[10,11]区分开来。尽

1.介绍

管取得了令人印象深刻的结果，但发现足够的领域知

医学诊断代表

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

MEDFACT-R1：通过伪标签增强实现事实性医学推理.pdfVIP