- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek系统软件优化总结
翟季冬
清华大学计算机系
1
DeepSeekV3公开的预训练成本
按照H800GPU每小时每卡2美元租赁成本,全部训练成本:5,576,000美元不包括前期探索模型架构、消融实验等开销
预训练时间估计:
2048张H800计算:~54天10000张H800计算:~11天
DeepSeek公开的V3训练成本
2
主要模型参数
DeepSeekV3模型参数:
671B参数(GPT-3:175B、GPT-4:1.76T?)
每个token激活37B参数、~5.5%
61层Transformer、Hiddendimension:7168
FFNMoE:1共享专家(sharedexpert)+256路由专家(routedexperts)每个token激活8个路由专家
3
DeepSeek模型架构
DeepSeek架构:MLA(multi-headlatentattention)+MoE(mixtureof
experts)
4
DeepSeekMoE架构
bDeepSeekMoE架构
共享专家+路由专家MoE架构
5
并行训练框架
并行训练框架HAI-LLM:
流水线并行:16路
专家并行:64路(跨8个物理节点)
数据并行:ZeRO-1
张量并行:No(通信开销大)
网络拓扑结构
IB
50GB/s
NVLink160GB/s
6
主要系统优化方法
负载均衡
通信优化
内存优化
计算优化
7
负载均衡优化
负载均衡是MoE训练的一个主要挑战
提出Auxiliary-Loss-FreeLoadBalancing
核心思想:引入一个ExpertBias
保证专家负载均衡
Bias只影响专家路由、不产生任何梯度影响
动态调整ExpertBias
降低bias:如果对应专家overloaded
增大bias:如果对应专家underloaded
Loss-Free负载均衡策略[1]
[1]LeanWang,HuazuoGao,ChenggangZhao,XuSun,DamaiDai.Auxiliary-Loss-FreeLoadBalancingStrategyforMixture-of-Experts.
2024.Aug.
8
通信优化:精细编排计算和通信
提出DualPipe算法:
精细控制分配给计算和通信的GPUSM数量,保证计算和通信能够完全重叠
解决专家并行AlltoAll通信开销大的问题
9
通信优化:双向流水线机制
双向流水线并行:
前向和反向重叠的阶段
双向流水线导致两份模型参数存储更大的专家并行
示例:8级流水线并行、20个micro-batch
10
通信优化:跨节点通信优化
IB带宽
50GB/s
跨节点通信优化:
跨节点:每个token最多路由到4个物理节点
节点内:每个token平均选择3.2个节点内专家IB和NVLink的重叠:
NVLink带宽160GB/sNVLink:160GB/sIB:50GB/s=3.2
NVLink带宽
160GB/s
路由策略:IB转发NVLink转发
warpspecialization技术[1]
20个SM控制通信(132SM)
动态调整:分配给通信任务warp数量
11
11
[1]Singe:LeveragingWarpSpecializationforHighPerformanceonGPUs.2014.
内存优化
优化GPU内存使用:
重计算:RMSNorm、MLAup-projection
使用CPU内存:在CPU侧保存模型参数的指数移动平均、异步更新
参数共享:主模型和MTP模块的outputhead和embedding部署在相同节点
12
计算优化:混合精度训练
FP8:核心计算GEMM采用FP8
提高模型精度(减缓outlier影响):
细粒度量化:
FP8混合精度的整体训练思路Activation:1*128Tile
FP8混合精度的整体训练思路
Weight:128*128block分组
增加累积的精度
您可能关注的文档
- Arup指南欧盟脱碳立法 2025.docx
- A股投资策略周报:港股“狂飙”背后:哪些驱动因子与A股不一样?.docx
- 3GPP 5G NR标准与测试 3GPP 5G NR标准与测试.docx
- 2025年bilibili营销通案 2025年bilibili营销通案.docx
- PARP 抑制剂联合免疫检查点抑制剂治疗晚期恶性肿瘤的疗效及安全性研究.docx
- PARPi通过抑制XRCC1的表达增加食管鳞放射治疗敏感性.docx
- PARP抑制剂在恶性肿瘤中的应用及耐药研究进展.docx
- PARP抑制剂治疗卵巢癌的应用现况及进展.docx
- PARP抑制剂治疗前列腺癌不良反应预防及管理中国专家共识.docx
- PARP抑制剂治疗晚期乳腺癌的作用机制及相关研究进展.docx
- 中考语文总复习语文知识及应用专题5仿写修辞含句子理解市赛课公开课一等奖省课获奖课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第二课《藏猫猫》精品课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第三课《我向国旗敬个礼》精品课件.pptx
- 高中生物第四章生物的变异本章知识体系构建全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 整数指数幂市公开课一等奖省赛课微课金奖课件.pptx
- 一年级音乐上册第二单元你早全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级数学上册第二章实数27二次根式第四课时习题省公开课一等奖新课获奖课件.pptx
- 九年级物理全册11简单电路习题全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级语文下册第五单元19邹忌讽齐王纳谏省公开课一等奖新课获奖课件.pptx
- 2024年秋季新人教PEP版3年级上册英语全册教学课件 (2).pptx
最近下载
- 学会理财益处多 中学心理健康 主题班会课件.pptx
- 2024年新疆中考历史+道德与法治试卷真题(含答案解析).docx
- 2024年山东理工职业学院单招职业技能考试试题及答案.docx
- 旅游消费者行为学.ppt VIP
- 人教版美术七年级下册第一单元第1课《辉煌成就》 课件.ppt
- 2024年济南工程职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析.docx
- 第5课《认识情绪+管理情绪》第2框《成为情绪的主人》【中职专用】《心理健康与职业生涯》(高教版2023基础模块.pptx VIP
- 中外幼儿教育名著导读(第二版).pptx VIP
- 三年级班主任工作计划.docx VIP
- 智能财税实务.pptx VIP
文档评论(0)