DeepSeek R1+Kimi1.5及类强推理模型开发解读-北京大学.pdfVIP

  • 0
  • 0
  • 约4.93万字
  • 约 80页
  • 2026-03-19 发布于浙江
  • 举报

DeepSeek R1+Kimi1.5及类强推理模型开发解读-北京大学.pdf

DeepSeek-R1\Kimi1.5及

类强推理模型开发解读

陈博远

北京大学2022级“通班”

主要研究方向:大语言模型对齐与可扩展监督

https://cby-pku.github.io/

/

北大对齐小组

Outline2

➢DeepSeek-R1开创RL加持下强推理慢思考范式新边界

➢DeepSeek-R1Zero及R1技术剖析

➢Pipeline总览\DeepSeek-V3Base\DeepSeek-R1Zero及R1细节分析

➢RL算法的创新:GRPO及其技术细节

➢DeepSeek-R1背后的InsightsTakeaways:RL加持下的长度泛化\推理范式的涌现

文档评论(0)

1亿VIP精品文档

相关文档