- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
给⼩⽩的⼤模型⼊⻔科普
█什么是大模型?
大模型,英文名叫LargeModel,大型模型。早期的时候,也叫Foundation
Model,基础模型。
大模型是一个简称。完整的叫法,应该是“人工智能预训练大模型”。预训
练,是一项技术,我们后面再解释。
我们现在口头上常说的大模型,实际上特指大模型的其中一类,也是用得最
多的一类——语言大模型(LargeLanguageModel,也叫大语言模型,简称LLM)。
除了语言大模型之外,还有视觉大模型、多模态大模型等。现在,包括所有
类别在内的大模型合集,被称为广义的大模型。而语言大模型,被称为狭义的大
模型。
从本质来说,大模型,是包含超大规模参数(通常在十亿个以上)的神经网
络模型。
之前给大家科普人工智能(链接)的时候,小枣君介绍过,神经网络是人工
智能领域目前最基础的计算模型。它通过模拟大脑中神经元的连接方式,能够从
输入数据中学习并生成有用的输出。
这是一个全连接神经网络(每层神经元与下一层的所有神经元都有连接),
包括1个输入层,N个隐藏层,1个输出层。
大名鼎鼎的卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)
以及transformer架构,都属于神经网络模型。
目前,业界大部分的大模型,都采用了transformer架构。
实际上,大模型的“大”,不仅是
刚才提到,大模型包含了超大规模参数。
参数规模大,还包括:架构规模大、训练数据大、算力需求大。
以OpenAI公司的GPT-3为例。这个大模型的隐藏层一共有96层,每层的神
经元数量达到2048个。
整个架构的规模就很大(我可画不出来),神经元节点数量很多。
大模型的参数数量和神经元节点数有一定的关系。简单来说,神经元节点数
越多,参数也就越多。例如,GPT-3的参数数量,大约是1750亿。
大模型的训练数据,也是非常庞大的。
同样以GPT-3为例,采用了45TB的文本数据进行训练。即便是清洗之后,
也有570GB。具体来说,包括CC数据集(4千亿词)+WebText2(190亿词)
+BookCorpus(670亿词)+维基百科(30亿词),绝对堪称海量。
最后是算力需求。
这个大家应该都听说过,训练大模型,需要大量的GPU算卡资源。而且,每
次训练,都需要很长的时间。
GPU算卡
根据公开的数据显示,训练GPT-3大约需要3640PFLOP·天
(PetaFLOP·Days)。如果采用512张英伟达的A100GPU(单卡算力195TFLOPS),
大约需要1个月的时间。训练过程中,有时候还会出现中断,实际时间会更长。
总而言之,大模型就是一个虚拟的庞然大物,架构复杂、参数庞大、依赖海
量数据,且非常烧钱。
相比之下,参数较少(百万级以下)、层数较浅的模型,是小模型。小模型
具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的垂
直领域场景。
█大模型是如何训练出来的?
接下来,我们了解一下大模型的训练过程。
大家都知道,大模型可以通过对海量数据的学习,吸收数据里面的“知识”。
然
您可能关注的文档
最近下载
- TSCIA 003-2021 陕西省市政基础设施工程施工技术文件管理规程.pdf VIP
- NF5280M6_可靠性预计报告.pdf VIP
- 便道施工技术交底111.doc VIP
- 第四版(2025)国际压力性损伤溃疡预防和治疗临床指南解读PPT课件.pptx VIP
- 木工家具做法.docx VIP
- 人工智能赋能初中教学评价体系改革研究.pdf VIP
- 专题09 三角函数拆角与恒等变形归类(原卷版)备考2025高考数学一轮知识清单.pdf VIP
- 小学课间活动中的趣味数学游戏设计与应用研究教学研究课题报告.docx
- 2023年华为HCIE数通(H12-891)认证培训考试题库大全-下(判断、填空、简答题).pdf VIP
- 外研版(三起)五年级下册英语期末测试题(含答案).docx VIP
文档评论(0)