人工智能行业DeepSeek开源Prover-V2强推理模型:递归强化学习提升数学能力.pdfVIP

人工智能行业DeepSeek开源Prover-V2强推理模型:递归强化学习提升数学能力.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

计算机设备

行业动态报告

目录

一、行业变化1

二、相关标的3

三、行情回顾4

四、产业要闻5

五、重要公告6

六、风险分析6

请务必阅读正文之后的免责条款和声明。

计算机设备

行业动态报告

一、行业变化

DeepSeek开源DeepSeek-Prover-V2

4月30日,深度求索(DeepSeek)在AI开源社区HuggingFace上,发布名为DeepSeek-Prover-V2-671B

的新模型,随后在GitHub等平台上公布了技术论文信息。据论文介绍,DeepSeek-Prover-V2是一个专为“数学

AI推理”Lean4中的形式化定理证明打造的开源大语言模型,目前在定理证明赛道上实现了业内最佳性能:

DeepSeek-Prover-V2-671B在MiniF2F测试中达到了88.9%的通过率,并成功解决了PutnamBench数据集中

658道题中的49道,在AIME24、25上也取得较高分数。

此次,DeepSeek团队发布了两个版本的DeepSeek-Prover-V2模型,参数规模分别为7B和671B。其中,

DeepSeek-Prover-V2-671B是在DeepSeek-V3-Base基础上训练而成,而DeepSeek-Prover-V2-7B则基于

DeepSeek-Prover-V1.5-Base构建,并支持最长32Ktokens的上下文长度扩展。

图表1:模型性能对比

资料来源:DeepSeek,中信建投

在数据初始化阶段,DeepSeek-Prover-V2通过DeepSeek-V3驱动的递归定理证明流程完成原始数据采集。

在冷启动过程中,首先通过分层推理引导,提示引导DeepSeek-V3将复杂数学命题拆解为高层次的证明草图,

并在此过程中同时将这些推理步骤用Lean4语言形式化,最终生成一系列结构清晰、逻辑严密的子目标。为了

降低计算开销,DeepSeek团队使用了更小的7B模型来完成每个子目标的证明搜索,从而降低计算负担。每个

子问题的求解结果会被编码为结构化逻辑单元,进而组合成具备因果关联的推理思维链,并融合DeepSeek-V3

的分布推导路径,最终将两类数据融合构建强化学习的初始训练数据。在对证明模型进行合成冷启动数据的微

调后,研究团队进一步引入强化学习阶段,进一步提升模型将非形式化推理转化为形式化证明的能力。在训练

过程中,遵循推理模型的通用目标,采用「对/错」二值反馈作为主要的奖励信号。

请务必阅读正文之后的免责条款和声明。

1

计算机设备

行业动态报告

通过此训练方法,可以将非形式化和形式化的数学推理融合到一个统一的模型中,使模型同时具备人类数

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档