- 0
- 0
- 约1.7万字
- 约 6页
- 2026-02-27 发布于北京
- 举报
MEDFACT-R1:通过伪标签增强实现事实性医学推理
∗
GengliangLI,RongyuCHEN,BinLI,LinlinYANG,GuodongDING
Baosight,NUS,SIAT,CAS,CUC,Microsoft,ANU
ABSTRACT错误是不可接受的。克服这些挑战对于开发能够实现
可靠性能的深度学习系统至关重要,在现实世界的临
确保事实一致性及可靠的推理仍然是医疗视觉语言模
床实践中[1]。
型面临的重大挑战。我们引入了MedFact-R1,这
是一种两阶段框架,结合外部知识关联与强化学最近,大规模的视觉语言模型(VLMs)[2,3,4]迅
猛发展,正在改变各行各业。它们在医疗领域的扩展
本习以提升事实性医学推理。第一阶段使用伪标签
译监督微调(SFT)来整合外部事实性专业知识;而显示出了巨大的潜力,近期的努力[5]整理了医学数
据集,并对VLMs进行了微调以适应专业应用。然而,
中第二阶段则应用带有四个定制化事实奖励信号的
事实可靠性仍然是一个主要障碍:现有模型常常会在
1组相对策略优化(GRPO),鼓励自我一致性的推
v理。在三个公共医疗问答基准测试中,MedFact-高风险场景中生成幻觉和事实错误。为了解决这一问
4题,RULE[1]引入了一种风险控制的检索增强生成
5R1相比之前的最先进的方法,在事实准确性上最
1(RAG)方法,该方法平衡了外部检索与内部知识,从
5多提升了%个百分点。消融研究强调了伪标
而显著提高了事实准确性。
1签SFT冷启动的必要性,并验证了每个GRPO奖
.
9励的贡献,突出了知识关联与基于RL驱动推理之同时,许多后训练工作成功地挖掘了视觉语言模
0
5间的协同作用,以建立可信的医疗AI。代码发布在型的知识和潜力,其中先进的强化学习(RL)已成为
2/Garfieldgengliang/MEDFACT-一个显著的例子。与通过下一个标记预测的监督学习
:
vR1。不同,强化学习使用奖励信号优化任务策略而不依赖
i
x于详细的标注。GRPO[6,7]是最先进的RL后训练
r
aIndexTerms—医学视觉语言模型,事实性医疗方法之一,在推广方面超越了监督微调,因为它解锁
推理,伪标签,GRPO
了推理中的“顿悟”时刻[4],这使其与先前的方法如
PPO[8]、DPO[9]和传统方法[10,11]区分开来。尽
1.介绍
管取得了令人印象深刻的结果,但发现足够的领域知
医学诊断代表
您可能关注的文档
- 迷失在翻译中? 源自由域适应中的词汇对齐在开放词汇语义分割中的应用.pdf
- 基于连续学习损失正则化的网络分布迁移下的信道预测.pdf
- 基于条件先验的非平稳信道估计使用加速扩散模型.pdf
- 半监督从 2D 自然图像预训练模型进行 3D 医学分割.pdf
- 注意差距:数据改写以实现稳定的离策略监督微调.pdf
- 基于等效模型的随机 TRANSFORMER 上下文学习渐近研究.pdf
- 探索音频效果如何改变情绪的基础模型.pdf
- 谁值得信任?基于 Logit 的联邦学习中的客户端知识聚合.pdf
- 在线倾斜经验风险最小化的好处: 异常检测和鲁棒回归的案例研究.pdf
- FCPE:一种快速上下文依赖的音高估计模型.pdf
最近下载
- 电能质量PPT课件.ppt
- 132_中药饮片炮制及生产管理.pptx VIP
- SimBank银行模拟教学平台实习指导书.pdf VIP
- 深度解析(2026)《JBT 12968-2025盾构机用变频调速三相异步电动机技术规范》.pptx VIP
- 统计学原理与实务.pdf VIP
- 冻干SOP(最新整理版).docx VIP
- DB11T 1213-2015 自来水单位产量能源消耗限额 .docx VIP
- (正式版)G-B∕T 43909-2024 叉车属具 安全要求.docx VIP
- 中国慢性乙型肝炎功能性(临床)治愈临床实践专家共识(2025)解读PPT课件.pptx VIP
- 监理概论教案.pdf VIP
原创力文档

文档评论(0)