- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要;第一章;
第一章;R1-Zero验证了大模型仅通过RL就可实现强大推理能力;;R1模型推理任务表现出色;通过蒸馏实现推理能力迁移;DeepSeek中强化学习的核心策略是GRPO策略,GRPO是PPO的改进版本,专门优化数学推理任务,减少计算资源消耗。
GRPO关键改进:
取消价值网络,降低计算资源。PPO需要一个额外的价值网络来估计优势,但GRPO直接用样本组的平均奖励作为基线。这样,GRPO不需要额外训练价值网络,减少GPU计算成本。
采用分组相对奖励,GRPO用多个样本的奖励来计算相对优势,而不是用价值网络估计优势。;KIMI1.5:最好的Short-CoT模型,出色的推理创新;KIMI1.5:四大创新;KIMI1.5:Partialrollout的RL框架创新;KIMI1.5:Long2short技术保证了最强的短推理模型;阿里千问发布Qwen2.5系列模型,性能水平顶尖;Qwen2.5预训练阶段构建了更高质量数据集及专门的上下文训练方式;通过扩大监督微调数据范围以及两阶段强化学习,增强模型处理能力;Qwen2.5-1M和Qwen2.5VL发布,进一步拓展Qwen2.5家族系列;Qwen2.5-Max上线,性能超越DeepSeekV3;OpenAIo1模型;
第二章;;低成本缘由二:FP8混合精度训练框架;低成本缘由三:流水线并行策略提升训练效率;低成本缘由四:跨节点无阻通信设计;;深度推理激发长期算力需求;
第三章;模型案例对比——开关控制灯泡问题;模型案例对比——囚犯抓豆子博弈;模型案例对比——逻辑谜题;模型案例对比——盲人分袜;模型案例对比——数字推理;
第四章;大模型技术发展不及预期:大模型属于先进AI算法,若后续大模型算法更新迭代效果不及预期,则会影响大模型演进及拓展,进而会影响其商业化落地等;
商业化落地不及预期:大模型的商业落地模式在业界中普遍处于探索阶段,用户对于大模型的接受程度和商业化变
现能力可能不及预期;
算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算力的封锁,大语言模型训练过程中需
要大量算力资源,需要关注中美关系带来的算力的压力;
政策监管力度不及预期:大语言模型带来新的网络生态商业,尚属于前期成长阶段,政策监管难度加大,相关法律法规尚不完善,政策监管力度可能不及预期;
数据数量与数据质量不及预期:大型语言模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响大语言模型效果。
感谢樊文辉、陈思玥、孟龙飞对本报告的贡献。
您可能关注的文档
最近下载
- 基于PLC和SolidWorks的三层冰箱的建模与控制系统方案设计.pdf
- 2025年中国河南国际合作集团有限公司人员招聘笔试备考题库.docx
- (最新)25年春三年级英语下册Unit 2 Expressing yourself单元教学设计.docx
- 基于单片机的仓库存储无线报警系统.pdf VIP
- 基于ZigBee技术的家庭智能安全监测系统.pdf VIP
- 甘肃电力现货市场培训课件.pptx
- 跳花坡1号隧道支护结构与施工组织设计.docx
- 《人身损害误工期、护理期、营养期评定规范》(现行有效).docx VIP
- 5建立良好的公共秩序 第二课时《共同建设有序生活》课件 五年级下册道德与法治统编版.pptx
- 北京市西城区2023届高三一模数学试题(解析版).docx
文档评论(0)