- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
千亿参数LLM的训练效率优化
演讲人:张力寰
零一万物/AIInfra分布式训练优化架构师
模型训练硬件利用率影响因素
Llama3.1
?92页的技术报告
?最大405B的模型
?16KH100训练集群
?54天的预训练,466次任务中断
?MFU:40%左右
?Goodput:90%左右的有效训练时间占比
htps:///pdf/2407.21783
MFU
?ModelFLOPSUtilization,模型算力利用率
?FLOPS(FloatingPointOperationsPerSecond)
????rv?怀t?r?ug??ut
?FU=t???r?ti??????i?u?t?r?ug??ut
htps:///pdf/2407.21783htps:///en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
Goodput
?AmetrictomeasureAIsystemefficiency(Google)
?SchedulingGoodput
?RuntimeGoodput
?ProgramGoodput
htps:///blog/products/ai-machine-learning/goodput-metric-as-measure-of-ml-productivity
分布式训练效率提升
DataParallelism
?DDP:DistributedDataParallel
?模型较小,数据量较大
htps:///nemo-framework/user-guide/latest/nemotoolkit/features/paralelisms.html
TensorParallelism
?Megatron-LM-1
?拆分均匀,但通信量大
h
htps:///pdf/1909.08053
PipelineParallelism
?GPipe(Google),PipeDream(Microsoft)
?Megatron-LM-2
?通信量低,但会引入bubble
htps:///pdf/1806.03377htps:///pdf/181.06965htps:///pdf/2104.04473
ExpertParallelism
?SwitchTransformers(Google)
?MegatronExpertParallelism
htps:///pdf/2101.03961htps:///nemo-framework/user-guide/latest/nemotoolkit/features/paralelisms.html
ContextParallelism
htps:///megatron-core/developer-guide/latest/api-guide/context_paralel.html
RingAttention
?RingAttentionwithBlockwiseTransformersforNear-InfiniteContext(UCBerkeley)
?(a)Outerloop:computingblockwiseattentionamongdevices
?(b)Innerloop:everydevicecomputesblockwiseattentionandfeedforwardoperations
h
htps:///pdf/2310.01889
RingAttention
?基本原理:Onlinesoftmax
?性能问题:负载不均衡
RingAttention
?原版VS负载均衡版
SWA+CP
?SlidingWindowAttention+ContextParallel
?不同情况序列长度的问题
?如何复用高性能Attention算子(如FlashAttention)
?模基共建
?如何与FullAttention+CP混合使用
其它优化
?通信计算并行
?分布式优化器显存优化
?TP的MPI依赖解耦
?
...
FP8训练经验分享
aFP8训练简介
?
您可能关注的文档
最近下载
- 国际金融概论(孟昊 王爱俭)09—国际储备政策.ppt VIP
- 国际金融概论(孟昊 王爱俭)08—外汇与汇率政策.pptx VIP
- 宣城市2024届高三年级第一次调研测试(一模)物理试卷(含答案).docx
- 国际金融概论(孟昊 王爱俭)07—国际结算与贸易融资实务.ppt VIP
- 机械臂远程控制的设计与实现.doc
- 《铁道概论》考试复习题库(浓缩300题).docx
- 全国陆生野生动物资源调查与监测技术规程.doc
- 国际金融概论(孟昊 王爱俭)06—外汇风险与防范实务.ppt VIP
- 2022义务教育道德与法治课程标准(2022版)解读(含课程标准方案解读).pdf
- FE1.1s (B) Data Sheet 0.1.pdf
文档评论(0)