DeepSeekR1深度解析及算力影响几何.pptx

下载文档

39
0
约1.08千字
约 33页
2025-02-12 发布于北京
举报
版权申诉
保障服务

DeepSeekR1深度解析及算力影响几何.pptx

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要;第一章;

第一章;R1-Zero验证了大模型仅通过RL就可实现强大推理能力;;R1模型推理任务表现出色;通过蒸馏实现推理能力迁移;DeepSeek中强化学习的核心策略是GRPO策略，GRPO是PPO的改进版本，专门优化数学推理任务，减少计算资源消耗。

GRPO关键改进：

取消价值网络，降低计算资源。PPO需要一个额外的价值网络来估计优势，但GRPO直接用样本组的平均奖励作为基线。这样，GRPO不需要额外训练价值网络，减少GPU计算成本。

采用分组相对奖励，GRPO用多个样本的奖励来计算相对优势，而不是用价值网络估计优势。;KIMI1.5：最好的Short-CoT模型，出色的推理创新;KIMI1.5：四大创新;KIMI1.5：Partialrollout的RL框架创新;KIMI1.5：Long2short技术保证了最强的短推理模型;阿里千问发布Qwen2.5系列模型，性能水平顶尖;Qwen2.5预训练阶段构建了更高质量数据集及专门的上下文训练方式;通过扩大监督微调数据范围以及两阶段强化学习，增强模型处理能力;Qwen2.5-1M和Qwen2.5VL发布，进一步拓展Qwen2.5家族系列;Qwen2.5-Max上线，性能超越DeepSeekV3;OpenAIo1模型;

第二章;;低成本缘由二：FP8混合精度训练框架;低成本缘由三：流水线并行策略提升训练效率;低成本缘由四：跨节点无阻通信设计;;深度推理激发长期算力需求;

第三章;模型案例对比——开关控制灯泡问题;模型案例对比——囚犯抓豆子博弈;模型案例对比——逻辑谜题;模型案例对比——盲人分袜;模型案例对比——数字推理;

第四章;大模型技术发展不及预期：大模型属于先进AI算法，若后续大模型算法更新迭代效果不及预期，则会影响大模型演进及拓展，进而会影响其商业化落地等；

商业化落地不及预期：大模型的商业落地模式在业界中普遍处于探索阶段，用户对于大模型的接受程度和商业化变

现能力可能不及预期；

算力基础设施支持不及预期：美国制裁中国高科技企业，对中国形成芯片、算力的封锁，大语言模型训练过程中需

要大量算力资源，需要关注中美关系带来的算力的压力；

政策监管力度不及预期：大语言模型带来新的网络生态商业，尚属于前期成长阶段，政策监管难度加大，相关法律法规尚不完善，政策监管力度可能不及预期；

数据数量与数据质量不及预期：大型语言模型需要大量的高质量数据进行训练，若数据数量和质量存在短板，则会影响大语言模型效果。

感谢樊文辉、陈思玥、孟龙飞对本报告的贡献。

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

DeepSeekR1深度解析及算力影响几何.pptx