- 1
- 0
- 约1.3万字
- 约 10页
- 2026-05-18 发布于海南
- 举报
得低比特方案不只是理论节省显存,而是真正进入了可训练、可rollout、可部署的主干流程。
5)后训练专家独立训练+on-policydistillation统一蒸馏:不是直接把一个通用模型拿去做混合RL,
而是先分别培养数学、代码、agent、instruction-following等领域专家,再通过on-policydistillation
把这些能力蒸馏回一个统一模型。设计的意义在于把专才能力最强和最终交付一个通用模型两个目标拆开
做,兼顾specialization和consolidation。
6)基础设施层面创新:MoE中把通信、计算、访存做成单融合kernel;更
原创力文档

文档评论(0)