给小白的大模型入门科普.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

给⼩⽩的⼤模型⼊⻔科普

█什么是大模型?

大模型,英文名叫LargeModel,大型模型。早期的时候,也叫Foundation

Model,基础模型。

大模型是一个简称。完整的叫法,应该是“人工智能预训练大模型”。预训

练,是一项技术,我们后面再解释。

我们现在口头上常说的大模型,实际上特指大模型的其中一类,也是用得最

多的一类——语言大模型(LargeLanguageModel,也叫大语言模型,简称LLM)。

除了语言大模型之外,还有视觉大模型、多模态大模型等。现在,包括所有

类别在内的大模型合集,被称为广义的大模型。而语言大模型,被称为狭义的大

模型。

从本质来说,大模型,是包含超大规模参数(通常在十亿个以上)的神经网

络模型。

之前给大家科普人工智能(链接)的时候,小枣君介绍过,神经网络是人工

智能领域目前最基础的计算模型。它通过模拟大脑中神经元的连接方式,能够从

输入数据中学习并生成有用的输出。

这是一个全连接神经网络(每层神经元与下一层的所有神经元都有连接),

包括1个输入层,N个隐藏层,1个输出层。

大名鼎鼎的卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)

以及transformer架构,都属于神经网络模型。

目前,业界大部分的大模型,都采用了transformer架构。

实际上,大模型的“大”,不仅是

刚才提到,大模型包含了超大规模参数。

参数规模大,还包括:架构规模大、训练数据大、算力需求大。

以OpenAI公司的GPT-3为例。这个大模型的隐藏层一共有96层,每层的神

经元数量达到2048个。

整个架构的规模就很大(我可画不出来),神经元节点数量很多。

大模型的参数数量和神经元节点数有一定的关系。简单来说,神经元节点数

越多,参数也就越多。例如,GPT-3的参数数量,大约是1750亿。

大模型的训练数据,也是非常庞大的。

同样以GPT-3为例,采用了45TB的文本数据进行训练。即便是清洗之后,

也有570GB。具体来说,包括CC数据集(4千亿词)+WebText2(190亿词)

+BookCorpus(670亿词)+维基百科(30亿词),绝对堪称海量。

最后是算力需求。

这个大家应该都听说过,训练大模型,需要大量的GPU算卡资源。而且,每

次训练,都需要很长的时间。

GPU算卡

根据公开的数据显示,训练GPT-3大约需要3640PFLOP·天

(PetaFLOP·Days)。如果采用512张英伟达的A100GPU(单卡算力195TFLOPS),

大约需要1个月的时间。训练过程中,有时候还会出现中断,实际时间会更长。

总而言之,大模型就是一个虚拟的庞然大物,架构复杂、参数庞大、依赖海

量数据,且非常烧钱。

相比之下,参数较少(百万级以下)、层数较浅的模型,是小模型。小模型

具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的垂

直领域场景。

█大模型是如何训练出来的?

接下来,我们了解一下大模型的训练过程。

大家都知道,大模型可以通过对海量数据的学习,吸收数据里面的“知识”。

文档评论(0)

steven + 关注
实名认证
文档贡献者

系统集成项目管理工程师、AMAC基金从业资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年08月23日上传了系统集成项目管理工程师、AMAC基金从业资格证

1亿VIP精品文档

相关文档