网站大量收购独家精品文档,联系QQ:2885784924

科技参考三041—心智:GPT模型怎么工作.pdf

科技参考三041—心智:GPT模型怎么工作.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

同步日更微foufoushu

041|心智:GPT模型怎么工作

欢迎回到《科技参考》,我是卓克。

这个系列,我们用几期内容深入讨论一下今后十年里最重要的发明——

大语言模型。

得到在2023年4月推出了一系列和ChatGPT有关的课程,但那些都

集中在怎么用上。至于ChatGPT是怎么工作的,1750亿个参数到底代

表了什么,GPT模型有没有人类的心智,还会不会有更高级的形式……

这些课程都没有深入讨论。

咱们《科技参考》的用户当然要比普通科技爱好者更懂行一些,所以这

个系列,我们就来仔细讨论。

第一期内容,我们讲讲GPT模型是怎么做文字接龙的。

这期涉及到的细节可能比较难,如果你对这部分实在不感兴趣,跳过就

可以。这部分只是让大家明白一个道理,1750亿个参数值是通过超级

复杂的连接训练出来的。至于有多复杂,只有听懂细节才能充分感受到。

同步日更微foufoushu

首先,为了给句子做接龙游戏,要把文字拆成元素。多少个元素呢?

50256+1个。前面50256都是各种可能出现的字符和单词,最后一个

是终止符。

比如,0对应感叹号,1是右引号,直到31对应“@”,以上都是符

号。从32开始是大小写字母。接下来是简单常用单词he、in、at、it、

is……越不常用的单词和单词的变形序号越靠后。第50257对应的是句

子终止符。英文单词要是有5万,那50257基本能覆盖所有出现过的

文字了。

为了后续方便说明生成原理,我挑3个单词出来,分别是:

Jack-14295

is-318

weak-4939

当我向ChatGPT输入“Jackisweak”后,相当于输入了[14295,318,

4939]。但这个数组不能直接用,要先把它们转化到一个长度是50257

的只有一行的表格中。这个大长条表格中,绝大部分空都要填0,只有

对应那个词的序号的空里填1。

同步日更微foufoushu

这个一行的表格在计算处理时,就被当作一行50257列的3个向量。

但这个向量太大,计算负担太重,需要进行一次压缩,每个词变成一行

1024个格子的向量。

有人问,是不是通过求哈希值得到的?不,是通过训练得到的。具体是

怎么训练得到的,很复杂,比这期讲的还要复杂。在这个系列的末尾谈

到压缩的时候会涉及到。反正你就知道是通过训练,又得到这3个词的

新的3个向量,每个向量的长度是1024就可以了。

刚刚的第一步叫one-hot编码。这一步的压缩叫嵌入转换。

接着,给3个向量加上位置编码。

比如,第一个词Jack标记它处于0位置,第二个is处于1位置,第三

个weak处于2位置。这些位置信息也是1024长度的一个向量。有人

问为什么,因为“自注意力机制自身不具备处理序列中元素顺序的能力,

所以必须提供位置信息,以便模型能理解单词在句子中的顺序”。但这

样的解释又附加了更多新知识点,比如自注意力机制是什么。所以,其

实你不用管,只需要知道,还得加上位置编码就行了。

加上以后,3个1024长度的向量进入第一个编码层。从这里开始,自

注意力机制就开始运转了。

同步日更微foufoushu

第一个编码层就叫作注意力编码层1。经过这一层计算后,输出依然是

3个1024长度的向量,只不过它们和进入之前不一样了。然后,再进

入注意力编码2层、3层、4层……对于GPT-2模型来说,一共进入后

面的24层,最后输出的还是3个1024长度的向量。

在最后一层向量输出后,根据最后一个向量的计算结果,就能查询到第

四个词接哪些词最合适,然后“Jackisweak”的下一个词就会出现了。

出现的这个词再和前3个词合并在一起,成为下一次的输入。这次就是

4个词的输入。然后再经过这几十层的注意力编码层,就能输出第5个

词。

文字接龙游戏就是这样一个字一个字往下续,最终遇到终止符就结束

了。

接下来,我们把注意力放在第一个注意力编码层上,具体看看里面发生

了什么。因为后面每一层发生的事情,逻辑都是一样的,只不过把层数

加多了而已。

在注意力编码层中,有两步计算——先算多头注意力,再算全连接。这

两步计算都有什么功能呢?算多头注意力的过程,能把问题中每

您可能关注的文档

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档