网站大量收购独家精品文档,联系QQ:2885784924

DeepSeekR1深度解析及算力影响几何.pptx

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要;第一章;

第一章;R1-Zero验证了大模型仅通过RL就可实现强大推理能力;;R1模型推理任务表现出色;通过蒸馏实现推理能力迁移;DeepSeek中强化学习的核心策略是GRPO策略,GRPO是PPO的改进版本,专门优化数学推理任务,减少计算资源消耗。

GRPO关键改进:

取消价值网络,降低计算资源。PPO需要一个额外的价值网络来估计优势,但GRPO直接用样本组的平均奖励作为基线。这样,GRPO不需要额外训练价值网络,减少GPU计算成本。

采用分组相对奖励,GRPO用多个样本的奖励来计算相对优势,而不是用价值网络估计优势。;KIMI1.5:最好的Short-CoT模型,出色的推理创新;KIMI1.5:四大创新;KIMI1.5:Partialrollout的RL框架创新;KIMI1.5:Long2short技术保证了最强的短推理模型;阿里千问发布Qwen2.5系列模型,性能水平顶尖;Qwen2.5预训练阶段构建了更高质量数据集及专门的上下文训练方式;通过扩大监督微调数据范围以及两阶段强化学习,增强模型处理能力;Qwen2.5-1M和Qwen2.5VL发布,进一步拓展Qwen2.5家族系列;Qwen2.5-Max上线,性能超越DeepSeekV3;OpenAIo1模型;

第二章;;低成本缘由二:FP8混合精度训练框架;低成本缘由三:流水线并行策略提升训练效率;低成本缘由四:跨节点无阻通信设计;;深度推理激发长期算力需求;

第三章;模型案例对比——开关控制灯泡问题;模型案例对比——囚犯抓豆子博弈;模型案例对比——逻辑谜题;模型案例对比——盲人分袜;模型案例对比——数字推理;

第四章;大模型技术发展不及预期:大模型属于先进AI算法,若后续大模型算法更新迭代效果不及预期,则会影响大模型演进及拓展,进而会影响其商业化落地等;

商业化落地不及预期:大模型的商业落地模式在业界中普遍处于探索阶段,用户对于大模型的接受程度和商业化变

现能力可能不及预期;

算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算力的封锁,大语言模型训练过程中需

要大量算力资源,需要关注中美关系带来的算力的压力;

政策监管力度不及预期:大语言模型带来新的网络生态商业,尚属于前期成长阶段,政策监管难度加大,相关法律法规尚不完善,政策监管力度可能不及预期;

数据数量与数据质量不及预期:大型语言模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响大语言模型效果。

感谢樊文辉、陈思玥、孟龙飞对本报告的贡献。

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档