- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek系统软件优化总结
翟季冬
清华大学计算机系
>1<
DeepSeekV3公开的预训练成本
按照H800GPU每小时每卡2美元租赁成本,全部训练成本:5,576,000美元
不包括前期探索模型架构、消融实验等开销
预训练时间估计:
2048张H800计算:~54天
10000张H800计算:~11天
DeepSeek公开的V3训练成本
>2<
主要模型参数
DeepSeekV3模型参数:
671B参数(GPT-3:175B、GPT-4:1.76T?)
每个token激活37B参数、~5.5%
61层Transformer、Hiddendimension:7168
FFNàMoE:1共享专家(sharedexpert)+256路由专家(routedexperts)
每个token激活8个路由专家
>3<
DeepSeek模型架构
DeepSeek架构:MLA(multi-headlatentattention)+MoE(mixtureof
experts)
>4<
DeepSeekMoE架构
DeepSeekMoE架构
共享专家+路由专家MoE架构
>5<
并行训练框架
并行训练框架HAI-LLM:IB
50GB/s
流水线并行:16路
专家并行:64路(跨8个物理节点)
数据并行:ZeRO-1
NVLink
张量并行:No(通信开销大)160GB/s
网络拓扑结构
>6<
主要系统优化方法
负载均衡
通信优化
内存优化
计算优化
>7<
负载均衡优化
负载均衡是MoE训练的一个主要挑战
提出Auxiliary-Loss-FreeLoadBalancing
核心思想:引入一个ExpertBias
è保证专家负载均衡
Bias只影响专家路由、不产生任何梯度影响
动态调整ExpertBias
降低bias:如果对应专家overloaded
增大bias:如果对应专家underloaded
您可能关注的文档
- 2024年度隐私合规监管趋势报告.pdf
- 2025年企业文化工作计划.pptx
- 2025年生态型媒体平台价值研究报告-艾瑞咨询-2025-56页.pdf
- 2025十大焦点问题:基金经理们怎么看?.pdf
- 2025中国消费级AI硬件价值洞察及Geek 50榜单报告.pdf
- DeepSeek R1的思考和启发_邱锡鹏.pdf
- DeepSeek本地部署,再也不怕服务器崩了!.pdf
- DeepSeek指导手册从入门到精通-25页.pdf
- 从DeepSeek看大模型软硬件优化_戴国浩.pdf
- 大规模强化学习技术原理与大模型技术发展研判_刘知远.pdf
- 2025年春新北师大版八年级物理下册全册课件.pptx
- 2025年春新北师大版八年级物理下册全册教学课件.pptx
- 2025年秋季新北师大版八年级上册物理全册教学课件.pptx
- 2025年秋季新人教版九年级上册化学全册课件.pptx
- 2025年新人教版八年级上册物理全册课件.pptx
- 2025年秋季新人教版九年级上册化学全册教学课件(新版教材).pptx
- 新人教版七年级上册英语全册课件(2025年新版教材).pptx
- 锂离子电池前驱体磷酸铁合成方法研究现状及展望.docx
- 2024年东盟石油和天然气更新报告(英文版)-东盟.docx
- DB3209_T 1207.2-2022 建设工程档案管理 第二部分:房屋建筑工程文件归档和档案移交范围.docx
文档评论(0)