- 5
- 0
- 约1.92万字
- 约 9页
- 2026-03-06 发布于北京
- 举报
2025-08-12
指南针思考者-7B技术报告
ShopeeLLMTeam
近期的R1-Zero类似研究进一步证明,推理扩展赋予了大型语言模型前所未有的推理能力,并且强化学习
是激发其复杂推理的核心技术。然而,在超大规模模型上直接进行RL实验涉及高昂的计算成本和资源需
求,存在显著的风险。我们提出了Compass-Thinker-7B模型,旨在探索在较少计算资源和成本下强化学
习的潜力,并为更大规模模型的RL配方研究提供见解。Compass-Thinker-7B是通过一个特别设计的强
化学习流水线从开源模型训练得到的。我们整理了一个包含30k可验证数学问题的数据集用于强化学习流
水线。通过在不同阶段配置具有不同难度分布的数据和训练设置,逐步释放了模型潜力并
您可能关注的文档
- LyS 在 SemEval 2025 任务 8 中:面向表格问答的零样本代码生成.pdf
- QAMRO:质量感知自适应边际排序优化用于与人类对齐的音频生成系统评估.pdf
- 缓解大型语言模型中反事实解释的流行偏差.pdf
- 针对电力电网的负载改变攻击:使用 GB-36 母线系统公开数据集的一个案例研究.pdf
- UNISTFORMER: 统一的时空轻量级变换器用于高效的基于骨架的动作识别.pdf
- 安全语义,不安全解释:解决大型视觉-语言模型中的隐式推理安全性问题.pdf
- EGGCodec:一种用于 EGG 重建和 F0 提取的稳健神经编码器-解码器框架.pdf
- 机器人超声脊柱采集中的形状补全与实时可视化.pdf
- Munsit 在 NADI 2025 共享任务 2:使用弱监督预训练和持续监督微调推进多方言阿拉伯语 ASR 的边界.pdf
- 预览 WB-DH:面向全身数字人平台生成全身说话 avatar 视频的方向.pdf
- 山东临沂市第十九中学2026届高考冲刺生物模拟试题含解析.doc
- 2025年江西南昌市教师招聘考试《幼儿教育综合知识》真题(考生回忆版).docx
- 2025年国家义务教育质量监测小学四年级德育国测模拟测试题及答案.docx
- 2025年党政领导干部公开选拔和竞争上岗考试(公共科目)参考题库.docx
- X62万能铣床参考教案.docx
- 重庆市两江育才中学2026届高三第二次诊断性检测物理试卷含解析.doc
- VW50015 中文版:全流程规范解析.docx
- 《商中间、末尾有0的除法》两、三位数除以一位数PPT课件系列.pptx
- 《三位数除以一位数》两、三位数除以一位数PPT课件(第3课时)系列.pptx
- 《长方形和正方形周长的计算》长方形和正方形PPT教学课件系列.pptx
原创力文档

文档评论(0)