指南针思考者-7B 技术报告.pdfVIP

  • 5
  • 0
  • 约1.92万字
  • 约 9页
  • 2026-03-06 发布于北京
  • 举报

2025-08-12

指南针思考者-7B技术报告

ShopeeLLMTeam

近期的R1-Zero类似研究进一步证明,推理扩展赋予了大型语言模型前所未有的推理能力,并且强化学习

是激发其复杂推理的核心技术。然而,在超大规模模型上直接进行RL实验涉及高昂的计算成本和资源需

求,存在显著的风险。我们提出了Compass-Thinker-7B模型,旨在探索在较少计算资源和成本下强化学

习的潜力,并为更大规模模型的RL配方研究提供见解。Compass-Thinker-7B是通过一个特别设计的强

化学习流水线从开源模型训练得到的。我们整理了一个包含30k可验证数学问题的数据集用于强化学习流

水线。通过在不同阶段配置具有不同难度分布的数据和训练设置,逐步释放了模型潜力并

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档