MEDFACT-R1:通过伪标签增强实现事实性医学推理.pdfVIP

  • 0
  • 0
  • 约1.7万字
  • 约 6页
  • 2026-02-27 发布于北京
  • 举报

MEDFACT-R1:通过伪标签增强实现事实性医学推理.pdf

MEDFACT-R1:通过伪标签增强实现事实性医学推理

GengliangLI,RongyuCHEN,BinLI,LinlinYANG,GuodongDING

Baosight,NUS,SIAT,CAS,CUC,Microsoft,ANU

ABSTRACT错误是不可接受的。克服这些挑战对于开发能够实现

可靠性能的深度学习系统至关重要,在现实世界的临

确保事实一致性及可靠的推理仍然是医疗视觉语言模

床实践中[1]。

型面临的重大挑战。我们引入了MedFact-R1,这

是一种两阶段框架,结合外部知识关联与强化学最近,大规模的视觉语言模型(VLMs)[2,3,4]迅

猛发展,正在改变各行各业。它们在医疗领域的扩展

本习以提升事实性医学推理。第一阶段使用伪标签

译监督微调(SFT)来整合外部事实性专业知识;而显示出了巨大的潜力,近期的努力[5]整理了医学数

据集,并对VLMs进行了微调以适应专业应用。然而,

中第二阶段则应用带有四个定制化事实奖励信号的

事实可靠性仍然是一个主要障碍:现有模型常常会在

1组相对策略优化(GRPO),鼓励自我一致性的推

v理。在三个公共医疗问答基准测试中,MedFact-高风险场景中生成幻觉和事实错误。为了解决这一问

4题,RULE[1]引入了一种风险控制的检索增强生成

5R1相比之前的最先进的方法,在事实准确性上最

1(RAG)方法,该方法平衡了外部检索与内部知识,从

5多提升了%个百分点。消融研究强调了伪标

而显著提高了事实准确性。

1签SFT冷启动的必要性,并验证了每个GRPO奖

.

9励的贡献,突出了知识关联与基于RL驱动推理之同时,许多后训练工作成功地挖掘了视觉语言模

0

5间的协同作用,以建立可信的医疗AI。代码发布在型的知识和潜力,其中先进的强化学习(RL)已成为

2/Garfieldgengliang/MEDFACT-一个显著的例子。与通过下一个标记预测的监督学习

:

vR1。不同,强化学习使用奖励信号优化任务策略而不依赖

i

x于详细的标注。GRPO[6,7]是最先进的RL后训练

r

aIndexTerms—医学视觉语言模型,事实性医疗方法之一,在推广方面超越了监督微调,因为它解锁

推理,伪标签,GRPO

了推理中的“顿悟”时刻[4],这使其与先前的方法如

PPO[8]、DPO[9]和传统方法[10,11]区分开来。尽

1.介绍

管取得了令人印象深刻的结果,但发现足够的领域知

医学诊断代表

文档评论(0)

1亿VIP精品文档

相关文档