2024年如何提升大模型任务能力报告.pptx

下载文档

0
0
约6.02千字
约 39页
2024-12-18 发布于境外
举报
版权申诉
保障服务

2024年如何提升大模型任务能力报告.pptx

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

如何提升大模型任务能力

ChatGPT实现过程数据集合算法模型资源需求预训练阶段原始数据数千亿单词：图书、百科、网页等语言模型预训练基础模型1000+GPU月级别训练时间GPT3.0、LLaMa、PaLM指令微调标注用户指令百万用户指令和对应的答案语言模型预训练SFT模型1-100GPU天级别训练时间MOSS、ChatGLM6b、Vicuna-13B等奖励函数标注对比对百万标注对比对二分类模型RM模型1-100GPU天级别训练时间强化学习用户指令十万用户指令强化学习方法RL模型1-100GPU天级别训练时间ChatGPT、Claude2

大模型的能力是如何获取的语言模型预训练基础模型预训练阶段原始数据数千亿单词：图书、百科、网页等语言模型预训练SFT模型指令微调标注用户指令百万用户指令和对应的答案二分类模型RM模型奖励函数标注对比对百万标注对比对强化学习方法RL模型3强化学习用户指令十万用户指令知识压缩和表示学习能力注入生成式任务能力提升

4所有的能力都需要精心设计Acomprehensivecapabilityanalysisofgpt-3andgpt-3.5seriesmodels,Arxiv2023很多任务的能力在一开始并不具备，而是不断叠加上去的

所有的能力都需要精心设计Acomprehe5nsivecapabilityanalysisofgpt-3andgpt-3.5seriesmodels,Arxiv2023任务大量叠加会造成一些任务能力下降

6预训练阶段如何储存知识

人类知识如何定义7PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024人类知识：(name,attribute,value)三元组（非洲，最大国家，苏丹）（中国，首都，北京）BitComplexity：这些元组信息有效且无损地表示所需要的最小二进制位数例如，如果一个拥有1亿参数的模型存储了2.2亿比特的知识，则其容量比例为2.2比特/参数

GPT2模型的知识ScalingLaw8PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024GPT2使用标准AdamW优化器，稳定的保持2bit/参数无论如何设置参数包括：不同大小、深度、宽度的模型，各种数据量、类型以及超参数充分训练的7B模型可以保存14Bbits知识Wikipedia包含4.5Bwords所有英文图书包含16Bwords知识记忆不是word-by-word记忆，而是能够通过问答获取答案

需要足够多的“曝光”才能完成记忆达到2bit/参数对于每个知识要达到1000次曝光如果只有100次曝光的话，会减少到1bit/参数图标上面数字是l,h参数选择9PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024

“垃圾”数据对知识获取有显著影响Wikipediavs.CommonCrawl10PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024

预训练阶段结论PhysicsofLanguageModels:Part3.2,Knowledgemanipulation,MetaFAIRLabs,arXiv2023PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv202411同一个知识点必须用不同的方式大量重复，模型才能学习到具有高知识密度的高质量的训练数据至关重要经过足够的训练模型可以达到2bit/参数的知识存储能力如果预训练阶段模型没能学到知识，怎么微调都没有用PhysicsofLanguageModels:Part3.1,KnowledgeStorageandExtraction,MetaFAIRLabs,arXiv2023

12有监督微调阶段如何训练？

有监督微调的四种方式HowAbilitie1s3inLargeLanguage