- 20
- 0
- 约9.57千字
- 约 6页
- 2025-02-16 发布于北京
- 举报
会议要点
1、DeepSeekV3和R1的创新点
多头的层次注意力机制(MLA):用相对创新的算法降低了在训练时key、value等值所需的
参数量,减少了训练和推理的算力需求。
混合专家模型(MOE)的训练和推理方法:用多个专家替换大模型训练和推理过程中的一层
(MLP),在模型训练和推理过程中,可以不用激活所有专家的参数,减少训练所需的算力
需求,提升训练和推理效率。
多token预测(MTP):可以预测第N个参数以后的多个参数,每次训练或推理过程中可输
出多个减少loss的值,对模型进行更高效的训练。
FP8的混合精度训练:首次采用FP8混合精度的算力进行训练,顺应了更低精度算力的趋势。
R1模型的创新点:减少了SFT环节,不用进行监督反馈,却能达到类似于之前待监督的
Fine-tune模型的效果。
2、DeepSeekV3和R1的影响
对算力需求的影响:DeepSeekV3这种六百多B的模型,相比于之前的开源模型,算力需求
大幅下降,用两千多张卡、一两个月的时间就训练出性能良好的模型,算力利用效率是之前
模型的1/10。
对小模型性能的提升:用RL模型作为teacher去蒸馏其他开源模型,如通义千问或LLaMA3,
经过蒸馏的小模型性能会有显著提升,可在端侧用更低的算力成本获得更好的用户体验。
对训练和应用的影响:DeepSeekV3这样的模型,在两千多张卡的训练算力上,可获得类似
于之前上万张卡集群的效果,且在应用侧会有更多场景落地,推理侧的需求会有更好的增长,
像谷歌TPU这种ASIC卡的推理侧卡的需求会有更显著的增长。
3、DeepSeek的强化学习(RL)
RL的创新之处:DeepSeek在强化学习方法上有一些创新,采用冷启动,通过构建并收集少
量COT数据微调的模型作为初始的强化学行为体,其奖励模型引入准确性奖励和格式奖励,
通过这种reward机制能够回馈模型,让过程和数据更好,推理结果更佳。此外,V3有两个
版本,一个不依赖SFT,另一个是SFT加上强化学习组合使用,且该过程可支持蒸馏。
RL的蒸馏方式:DeepSeek的蒸馏为白盒子蒸馏,允许将自己的模型(如6700亿参数的模型)
蒸馏成较小的模型(如千万或14亿参数的模型),并将其提供给客户或下游厂商,以赋能其
他模型,而其他家的传统蒸馏方式为黑匣子蒸馏。
4、DeepSeek的MOE与传统MOE的区别
传统MOE的问题:MOE比较难训练,在后训练时比并行稍微麻烦,且在预算过程中,由于
专家模型数量较多(如256个),在预训时需要考虑负载均衡问题,否则会导致部分专家过
度训练,部分专家训练不足,从而影响整个模型性能。
DeepSeek的MOE的优势:DeepSeek引入无辅助损失负载均衡技术,通过引入自适应学习
的惩罚项、动态调度运营决策来决策专家的负载均衡,避免由于个别专家没有得到充分训练,
导致整个模型性能下降,这是其在工程上的较好方法。
5、DeepSeek对算力或加速卡性能要求的影响
对CUDA依赖的问题:DeepSeek在训练过程中,底层算子调度和寄存器调度方面,使用PDS
技术直接到GPU底层用更细颗粒度的指令去调度资源进行通信和显存调度,是业界先行者。
但CUDA和PDS并非完全独立,PDS是CUDA的一部分,在预训练过程中,个别需要用到底
层算力调度的细颗粒任务会用到PDS,因此是PDS加CUDA一起才达到现在的效果,且该技
术无法直接复刻到其他芯片上。
对高端芯片的影响:对于更大规模的机型和高端芯片(如A100、H100)来说,DeepSeek的
出现可能是利空。因为随着对FP8这种低精度训练的研究,后续可能对更高端芯片的需求没
那么强烈,对中低端芯片反而是好处。
6、AI商业模式下大模型公司的商业壁垒
DeepSeek的开源思路:DeepSeek在开源商业模式上没想清楚,其目的可能是想成为开源社
区的领先者,2万只是未来面向下一代模型的新起点,模型会持续增长和迭代。虽然目前与
海外多模态模型在复杂部分仍有差距,但未来市场上的模型玩家会减少,形成多个模型并存
且竞争的态势,DeepSeek的领先优势可能只能保持两三个月。
7、DeepSeek在推理和算力上的创新
推理上的创新:DeepSeek推理时用白卡集群进行推理,相比以前的单卡推理,其最大的特
点是需要用蒸馏版本的小模型进行推理,如将模型变成32G,十几张卡(如RTX4090)就可
进行推理。目前DeepSeek面临C端产品漏
原创力文档

文档评论(0)