2025DeepSeek‑Prover‑V1.5强化学习模型.docx

下载文档

0
0
约3.37万字
约 28页
2025-02-11 发布于湖南
举报
版权申诉
保障服务

2025DeepSeek‑Prover‑V1.5强化学习模型.docx

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DeepSeek?Prover?V1.5：利用证明助手反馈进行强化学习和蒙特卡洛树搜索

概述

我们在Lean4中引入了DeepSeek?Prover?V1.5，这是一个专为定理证明而设计的开源语言模型，它通过优化训练和推理过程增强了DeepSeek?Prover?V1。该模型在DeepSeekMath?Base上进行了预训练，专门用于形式数学语言，然后使用源自DeepSeek?Prover?V1的增强形式定理证明数据集进行监督微调。通过从证明助手反馈(RLPAF)进行强化学习可以进一步细化。除了DeepSeek?Prover?V1的单遍整体证明生成方法之外，我们还提出了RMaxTS，这是蒙特卡洛树搜索的一种变体，它采用内在奖励驱动的探索策略来生成不同的证明路

径。DeepSeek?Prover?V1.5相较于DeepSeek?Prover?V1有显著的提升，在高中水平miniF2F基准（63.5%）和本科水平ProofNet基准（25.3%）的测试集上均取得了新的最优结果。

图1|Lean4中形式化定理证明基准上的模型通过率：高中水平的miniF2F测试基准（Zheng等人，2022年）和本科水平的ProofNet基准（Azerbayev等人，2023年）。我们将DeepSeek?Prover?V1.5的预训练版本和微调版本与强基线进行了比较。

*核心贡献者

简介

大型语言模型的最新进展对人工智能中的数学推理和定理证明产生了重大影响。尽管在自然语言领域取得了显著进展，但语言模型在形式化定理证明方面仍然面临巨大挑战，例如使用Lean（Moura和Ullrich，2021年）和Isabelle（Paulson，1994年），这需要严格的推导以满足验证系统的形式化规范。即使是像GPT?4（OpenAI，2023年）这样的高级模型，在处理复杂的形式化证明时也会遇到困难，这凸显了所涉及的编码和数学的复杂性。形式化定理证明模型不仅必须掌握像Lean定理证明器这样的形式系统的语法和语义，还必须将抽象的数学推理与精确的形式化表示相结合。

形式化定理证明中的语言模型通常采用两种策略：证明步骤生成（Polu和Sutskever，2020年；Jiang等人，2022年；Lample等人，2022年；Yang等人，2023年；Wu等人，2024年）和整体证明生成（Jiang等人，2022年；Zhao等人，2023年；Wang等人，2023年）。证明步骤生成预测每个后续策略并使用形式化验证器对其进行验证以获取有关当前策略状态的更新信息，通常使用树搜索技术来构建有效证明。相比之下，整体证明生成在计算上是高效的，它根据定理陈述生成完整的证明代码，需要更少的通信预算来协调证明模型和形式化定理验证器之间的协调。

虽然DeepSeek?Prover?V1（Xin等人，2024）在Lean4中通过完整证明生成取得了最先进的成果，但这一范式也带来了独特的挑战。它需要在无法访问中间策略状态的情况下进行长远序列预测，而未来的策略取决于这些隐藏的结果。在Lean的策略模式中，证明是通过一系列转换证明状态的策略构建的。这种顺序性引入了复合错误的风险（Ross等人，2011），其中单一的误解可能会导致与有效证明路径的重大偏差。更具体地说，自回归模型在生成长证明时可能会对中间策略状态产生错误的信念。

为了将中间策略状态无缝集成到证明步骤生成中，同时保持整体证明生成的简单性和计算效率，我们在DeepSeek?Prover?V1.5中开发了一种统一方法。该方法通过截断和恢复机制结合了证明步骤和整体证明生成技术的优势。

该过程从标准的整体证明生成开始，其中语言模型按照定理语句前缀完成证明代码。然后精益证明器验证此代码。

如果证明正确且完整，则程序终止。如果检测到错误，则在第一个错误消息处截断代码，并丢弃任何后续代码。然后

使用成功生成的证明代码作为生成下一个证明段的提示。为了提高模型新完成的准确性，我们将来自Lean4证明器的最新状态作为注释附加在提示的末尾。值得注意的是，我们的方法不仅限于从上次成功应用的策略恢复。我们将截断和恢复机制集成到蒙特卡洛树搜索(MCTS；Coulom，2006)中，其中截断点由树搜索策略安排。此外，我们提出了一种新的无奖励MCTS探索算法来解决证明搜索的奖励稀疏问题。我们为树搜索代理分配了内在动机，即好奇心(Schmidhuber，2010)，以广泛探索策略状态空间。这些算法模块扩展了我们的整体证明生成模型的功能，使其成为交互式定理证明的灵活工具，可以有效地利用证明助手反馈并生成多样化的解