- 0
- 0
- 约8.72千字
- 约 10页
- 2026-03-06 发布于北京
- 举报
减少多智能体强化学习在数学问题求解中的
认知负荷:分离推理与代码生成
DayuWangJiayeYang
BaiduInc.BaiduInc.
2100010872@yamseyoung@
本
译WeikangLiJiahuiLiang
中PekingUniversityBaiduInc.
1wavejkd@liangjiahui03@
v
2YangLi
8
8BaiduInc.
8
0liyang164@
.
8
0
5摘要
2
:
v当前集成工具的数学推理系统通常采用单代理范式,其中一个大型语言
i模型在综合工作流中处理问题推理、代码生成和代码执行。虽然这种设计简
x
r化了协调,但我们假设它会带来认知负荷干扰,因为该代理必须将长期推理
a
与精确程序合成交织在一起。我们通过仅进行推理的代理与进行推理加代
码的代理之间的控制比较来验证这一假设,发现后者尽管具有调用工具的
能力,但仍产生显著较少的正确推理路径。为了解决这个问题,我们提出了
一种双代理混合框架:一个推理代理执行逐步问题分解,而一个代码代理处
理代码生成和执行。训练结合了模仿学习和强化学习:代码代理因匹配中间
真实程序获得强奖励,因有效执行获得弱奖励,而推理代理主要通过最终答
案准确性进行优化,并使用优势估计来归功于中间步骤。这种分离的角色设
计减少了认知干扰并促进了稳定的问题推理与编码协调。
1
1.介绍
工具增强的大语言模型最近在复杂推理任务上取得了显著进展,例如
数学问题求解。一个常见的系统设计遵循单一代理范式,在这种范式中,同
一模型依次进行高级推理、生成可执行代码并解释其输出。虽然这样的集成
简化了协调,但也存在认知负荷干扰的风险:代理必须在维持长期推理计划
的同时参与精确的低级程序综合。
我们通过在仅具备推理能力的代理和兼具推理与编码能力的代理之间
进行受控对比,使用相同的模型架构和训练数据来实证验证这一现象。尽管
拥有工具访问权限,集成代理生成正确推理路径的概率显著降低,这表明联
合推理–编码负担可能会损害中间逻辑步骤的质量。
受这些发现的启发,我们引入了一个双代理混合框架,该框架明确分离
了认知角色。一个推理代理将问题分解为逐步子任务,而一个代码代理生成
并执行程序来处理计算子问题。训练使用混合模仿-强化方案:当没有地面
真实数据时,代码代理通过匹配中间地面真实代码获得强奖励,并因有效执
行获得弱奖励;推理代理主要通过最终答案的准确性进行优化,并对中间步
骤的信用分配进行优势估计。这种解耦设计减轻了认知干扰,并使推理与编
码之间的合作更加稳定,从而提高了数学推理基准测试的表现。
2.相关工作
工具使用和语言模型中的工具集成推理近年来取得了迅速进展
您可能关注的文档
- QAMRO:质量感知自适应边际排序优化用于与人类对齐的音频生成系统评估.pdf
- 缓解大型语言模型中反事实解释的流行偏差.pdf
- 针对电力电网的负载改变攻击:使用 GB-36 母线系统公开数据集的一个案例研究.pdf
- UNISTFORMER: 统一的时空轻量级变换器用于高效的基于骨架的动作识别.pdf
- 安全语义,不安全解释:解决大型视觉-语言模型中的隐式推理安全性问题.pdf
- EGGCodec:一种用于 EGG 重建和 F0 提取的稳健神经编码器-解码器框架.pdf
- 机器人超声脊柱采集中的形状补全与实时可视化.pdf
- Munsit 在 NADI 2025 共享任务 2:使用弱监督预训练和持续监督微调推进多方言阿拉伯语 ASR 的边界.pdf
- 指南针思考者-7B 技术报告.pdf
- 预览 WB-DH:面向全身数字人平台生成全身说话 avatar 视频的方向.pdf
原创力文档

文档评论(0)