减少多智能体强化学习在数学问题求解中的认知负荷：分离推理与代码生成.pdfVIP

下载本文档

0
0
约8.72千字
约 10页
2026-03-06 发布于北京
举报

减少多智能体强化学习在数学问题求解中的认知负荷：分离推理与代码生成.pdf

减少多智能体强化学习在数学问题求解中的

认知负荷：分离推理与代码生成

DayuWangJiayeYang

BaiduInc.BaiduInc.

2100010872@yamseyoung@

本

译WeikangLiJiahuiLiang

中PekingUniversityBaiduInc.

1wavejkd@liangjiahui03@

2YangLi

8BaiduInc.

0liyang164@

5摘要

v当前集成工具的数学推理系统通常采用单代理范式，其中一个大型语言

i模型在综合工作流中处理问题推理、代码生成和代码执行。虽然这种设计简

r化了协调，但我们假设它会带来认知负荷干扰，因为该代理必须将长期推理

与精确程序合成交织在一起。我们通过仅进行推理的代理与进行推理加代

码的代理之间的控制比较来验证这一假设，发现后者尽管具有调用工具的

能力，但仍产生显著较少的正确推理路径。为了解决这个问题，我们提出了

一种双代理混合框架：一个推理代理执行逐步问题分解，而一个代码代理处

理代码生成和执行。训练结合了模仿学习和强化学习：代码代理因匹配中间

真实程序获得强奖励，因有效执行获得弱奖励，而推理代理主要通过最终答

案准确性进行优化，并使用优势估计来归功于中间步骤。这种分离的角色设

计减少了认知干扰并促进了稳定的问题推理与编码协调。

1.介绍

工具增强的大语言模型最近在复杂推理任务上取得了显著进展，例如

数学问题求解。一个常见的系统设计遵循单一代理范式，在这种范式中，同

一模型依次进行高级推理、生成可执行代码并解释其输出。虽然这样的集成

简化了协调，但也存在认知负荷干扰的风险：代理必须在维持长期推理计划

的同时参与精确的低级程序综合。

我们通过在仅具备推理能力的代理和兼具推理与编码能力的代理之间

进行受控对比，使用相同的模型架构和训练数据来实证验证这一现象。尽管

拥有工具访问权限，集成代理生成正确推理路径的概率显著降低，这表明联

合推理–编码负担可能会损害中间逻辑步骤的质量。

受这些发现的启发，我们引入了一个双代理混合框架，该框架明确分离

了认知角色。一个推理代理将问题分解为逐步子任务，而一个代码代理生成

并执行程序来处理计算子问题。训练使用混合模仿-强化方案：当没有地面

真实数据时，代码代理通过匹配中间地面真实代码获得强奖励，并因有效执

行获得弱奖励；推理代理主要通过最终答案的准确性进行优化，并对中间步

骤的信用分配进行优势估计。这种解耦设计减轻了认知干扰，并使推理与编

码之间的合作更加稳定，从而提高了数学推理基准测试的表现。

2.相关工作

工具使用和语言模型中的工具集成推理近年来取得了迅速进展

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

减少多智能体强化学习在数学问题求解中的认知负荷：分离推理与代码生成.pdfVIP