- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek冲击全球AI霸权,产业链;
评级;
DeepSeek有哪些创新之处,海外算力大幅回调蕴含哪些逻辑变迁?
全球巨头纷纷拥抱DeepSeek,后续还有哪些影响?
如何看待后续投资机遇?;
DeepSeek有哪些创新之处,海外算力大幅回调蕴含哪些逻辑变迁?;;
01回顾DeepSeek发展历程:量变到质变;
§MLA注意力机制(降维压缩、共享潜在空间、动态恢复):用LoRA低秩分解矩阵降低计算机复杂度,用RoPE给Q和K向量添加位置信息;提升效率但是不提升性能;
§DeepSeekMoE架构(精密分割、共享专家、动态路由):DeepSeek共享机制部分专家在不同令牌或层间共享参数,引入新的均衡负载技术避免单一专家过载,用sigmoid的函数替代传统softmax函数提升专家亲和度。在配置64个专家(其中8个共享)的情况下,DeepSeekMoE较SwitchTransformer(64个专家)实现了1.8倍的吞吐量提升,同时参数量降低30%。;
并行优化训练框架HAI-LLM用的是16路流水线并行、64路专家并行,跨8个物理节点,数据并行采用的是ZeRO-1,没有用通信开销比较大的张量并行
§通信优化:采用DualPipe算法精准的控制分配给计算机和通信的GPUSM的数量,保证计算和通信能够完全重叠;采用双向流水线控机制,一份内存存储两份模型参数,64路专家并行,有效降低bubble;
§内存优化:采用多令牌预测(MTP)通过引入额外的预测任务实现;
§计算机优化:混合精度训练,核心计算GEMM采用FP8,通过细颗粒杜Activation:1*128Tile分组,Weight:128*128Block分组。;
GPRO:GRPO核心是通过组内的相对奖励来估计Baseline,不使用外部的Value从而降低奖励模型的开销(比喻想象一组学生在解决问题。与其由老师单独批改每个学生的答案,不如让学生们自己相互比较答案。那些答得更好的学生会得到鼓励,而其他学生则从错误中学习。随着时间的推移,整个小组会集体进步,变得更加准确和一致。GRPO将这一原理应用于训练AI模型,使它们能够高效且有效地学习。
此外大规模RL之后无需大量SFT,模型出现类似顿悟的效果。;
PTX一般被隐藏在了CUDA的驱动中,所以几乎所有的深度学习或大模型算法工程师是不会接触到这一层,PTX是直接和底层的硬件去发生交互的,能够???现对底层硬件更好的编程和调用。PTX层相对于C或者说CUDA层会更偏底层。我们通过在这一层的优化和编程,就可以更好释放底层硬件的性能,并且有利于未来软硬件协同优化。;
在小模型进行大规模强化学习其效果远远不如大模型蒸馏的效果oDeepSeekR1通过监督微调SFT将大模型的推理知识迁移到小模型上,极大的强化小模型的能力o;
01DeepSeek-R1重要意义在于快速复现而非原创
DeepSeekSeek影响主要是三方面
§开源快速跟随OpenAI,如果未来趋势延续会极大挑战头部闭源模型的壁垒;
§GPRO训练方式催生新的ScallingLaw带动模型能力提升路径多元化;
§国内开源模型生态嶼起带动国产AI应用加速落地。
DeepSeekR1训练过程;
02
全球巨头纷纷拥抱DeepSeek,后续还有哪些影响?;
(百万美元,季度);
Wintel联盟
80年代起,为了推动PC行业的发展,微软与英特尔组成“Wintel“联盟,后续Wintel联盟垄断桌面端20多年,英特尔与微软,一个在硬件一个在软件,微软不断推出更加消耗内存的操作系统与软件,英特尔就把内存加大适配系统。操作系统与CPU高度互补,双方一度占据PC市场90%以上的份额撰取巨额暴利。;
DeepSeekV3/R1强大的性能引发全球关注,各大巨头纷纷拥抱。
DeepSeekV3/R1超强的性能引发各大巨头震动,AMD、英伟达、亚马逊、微软、华为、阿里等国内外巨头出于自身利益考量纷纷拥抱DeepSeek,巨头的认可进一步确立产业趋势,加速AI平权。
全球巨头纷纷拥抱DeepSeek加速适配;
7原有范式下头部模型厂商可靠身位优势壁垒获得超额利润。2023年至2024年上半年,模型追赶身位时间差在半年到一年,2024年下半年逐步缩短至季度,但因为模型是资源+资本战,头部投入大的玩家模型效果更好,即忿算力大支出3模型能力逐步提升3依靠模型能力优势做端到端应用或者找生态场景优势厂商合作3赚取产业链最大价值分配。
7DeepSeek引起轰动的核心点是短时间低成本实现了对ToP模型的追赶,头部模型厂
文档评论(0)