- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
LLMs训练经验帖
来自:AiGC面试宝典
宁静致远2023年09月28日22:03
分布式训练框架选择?
多用DeepSpeed,少用Pytorch原生的torchrun。在节点数量较少的情况下,使用何种训练框架并不是特别重
要;然而,一旦涉及到数百个节点,DeepSpeed显现出其强大之处,其简便的启动和便于性能分析的特点使其成
为理想之选。
LLMs训练时有哪些有用的建议?
1.弹性容错和自动重启机制
大模型训练不是以往那种单机训个几小时就结束的任务,往往需要训练好几周甚至好几个月,这时候你就知道能
稳定训练有多么重要。弹性容错能让你在机器故障的情况下依然继续重启训练;自动重启能让你在训练中断之后
立刻重启训练。毕竟,大模型时代,节约时间就是节约钱。
1.定期保存模型
训练的时候每隔一段时间做个checkpointing,这样如果训练中断还能从上次的断点来恢复训练。
1.想清楚再开始训练
训练一次大模型的成本很高的。在训练之前先想清楚这次训练的目的,记录训练参数和中间过程结果,少做重复
劳动。
1.关注GPU使用效率
有时候,即使增加了多块A100GPU,大型模型的训练速度未必会加快,这很可能是因为GPU使用效率不高,尤
其在多机训练情况下更为明显。仅仅依赖nvidia-smi显示的GPU利用率并不足以准确反映实际情况,因为即使显
示为100%,实际GPU利用率也可能不是真正的100%。要更准确地评估GPU利用率,需要关注TFLOPS和吞吐
率等指标,这些监控在DeepSpeed框架中都得以整合。
1.不同的训练框架对同一个模型影响不同
对于同一模型,选择不同的训练框架,对于资源的消耗情况可能存在显著差异(比如使用Huggingface
Transformers和DeepSpeed训练OPT-30相对于使用Alpa对于资源的消耗会低不少)。
1.环境问题
针对已有的环境进行分布式训练环境搭建时,一定要注意之前环境的python、pip、virtualenv、setuptools的版
本。不然创建的虚拟环境即使指定对了Python版本,也可能会遇到很多安装依赖库的问题(GPU服务器能够访问
外网的情况下,建议使用Docker相对来说更方便)。
1.升级GLIBC等底层库问题
遇到需要升级GLIBC等底层库需要升级的提示时,一定要慎重,不要轻易升级,否则,可能会造成系统宕机或很
多命令无法操作等情况。
模型大小如何选择?
进行大模型模型训练时,先使用小规模模型(如:OPT-125m/2.7b)进行尝试,然后再进行大规模模型(如:
OPT-13b/30b...)的尝试,便于出现问题时进行排查。目前来看,业界也是基于相对较小规模参数的模型
(6B/7B/13B)进行的优化,同时,13B模型经过指令精调之后的模型效果已经能够到达GPT4的90%的效果。
加速卡如何选择?
于一些国产AI加速卡,目前来说,坑还比较多,如果时间不是时间非常充裕,还是尽量选择Nvidia的AI加速卡。
您可能关注的文档
- 大模型面试题-5-transformers 操作篇.pdf
- 大模型面试题-4-Attention 升级面.pdf
- 大模型面试题-3-LLMs 激活函数篇.pdf
- 大模型面试题-2-Layer normalization 篇.pdf
- 大模型面试题-1-大模型(LLMs)基础面.pdf
- 大模型面试题-43-显存优化策略篇.pdf
- 大模型面试题-42-大模型(LLMs)显存问题面.pdf
- 大模型面试题-41-大模型(LLMs)LLM生成SFT数据方法面.pdf
- 大模型面试题-40-大模型(LLMs)训练集面.pdf
- 大模型面试题-39-强化学习在自然语言处理下的应用篇.pdf
- ds2-datalogic-用户操作说明书手册.pdf
- ifd9507-ethernet-ip-delta-electronics-用户操作说明书手册.pdf
- NICE1 操作说明书手册 v1.4.pdf
- diavh-ipc00j104-standard-type-ipc-delta-electronics-用户操作说明书手册.pdf
- ifd9506-ethernet-delta-electronics-用户操作说明书手册.pdf
- Galaxy_DX73V_使用说明书手册.pdf
- 单词级文本对抗攻击-程瑶.pdf
- Chattanooga PresSsion 652-8 使用操作说明书手册.pdf
- 多人协作开发Git使用介绍-李嘉玮.pdf
- zebra-mc3300x-rfid-用户操作说明书手册-QWY4wZkwRvtfYlztPnMXJg-31fc6ab9.pdf
最近下载
- 维修电工高级实操题库.pdf VIP
- 桥梁工程墩柱、盖梁模板支架专项施工方案.doc
- 2024-2025学年苏科版七年级数学下册 第9章 图形的变换 综合素质评价(含答案).pdf VIP
- 移动厕所投标方案(技术标 310页).doc
- 2023年江苏省普通高校单独招生统一考试电子电工单招试卷-B卷.docx
- 2025年成都市公共交通集团有限公司人员招聘笔试备考试题及答案解析.docx
- GB+30871-2022国家新标准规范.pdf
- 学生处处长述职报告范文.pdf VIP
- 国电乐东发电公司配煤掺烧全流程动态优化系统介绍(罗荣).pdf
- GB50433-2018 生产建设项目水土保持技术标准.docx
文档评论(0)