- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
同步日更微foufoushu
041|心智:GPT模型怎么工作
欢迎回到《科技参考》,我是卓克。
这个系列,我们用几期内容深入讨论一下今后十年里最重要的发明——
大语言模型。
得到在2023年4月推出了一系列和ChatGPT有关的课程,但那些都
集中在怎么用上。至于ChatGPT是怎么工作的,1750亿个参数到底代
表了什么,GPT模型有没有人类的心智,还会不会有更高级的形式……
这些课程都没有深入讨论。
咱们《科技参考》的用户当然要比普通科技爱好者更懂行一些,所以这
个系列,我们就来仔细讨论。
第一期内容,我们讲讲GPT模型是怎么做文字接龙的。
这期涉及到的细节可能比较难,如果你对这部分实在不感兴趣,跳过就
可以。这部分只是让大家明白一个道理,1750亿个参数值是通过超级
复杂的连接训练出来的。至于有多复杂,只有听懂细节才能充分感受到。
同步日更微foufoushu
首先,为了给句子做接龙游戏,要把文字拆成元素。多少个元素呢?
50256+1个。前面50256都是各种可能出现的字符和单词,最后一个
是终止符。
比如,0对应感叹号,1是右引号,直到31对应“@”,以上都是符
号。从32开始是大小写字母。接下来是简单常用单词he、in、at、it、
is……越不常用的单词和单词的变形序号越靠后。第50257对应的是句
子终止符。英文单词要是有5万,那50257基本能覆盖所有出现过的
文字了。
为了后续方便说明生成原理,我挑3个单词出来,分别是:
Jack-14295
is-318
weak-4939
当我向ChatGPT输入“Jackisweak”后,相当于输入了[14295,318,
4939]。但这个数组不能直接用,要先把它们转化到一个长度是50257
的只有一行的表格中。这个大长条表格中,绝大部分空都要填0,只有
对应那个词的序号的空里填1。
同步日更微foufoushu
这个一行的表格在计算处理时,就被当作一行50257列的3个向量。
但这个向量太大,计算负担太重,需要进行一次压缩,每个词变成一行
1024个格子的向量。
有人问,是不是通过求哈希值得到的?不,是通过训练得到的。具体是
怎么训练得到的,很复杂,比这期讲的还要复杂。在这个系列的末尾谈
到压缩的时候会涉及到。反正你就知道是通过训练,又得到这3个词的
新的3个向量,每个向量的长度是1024就可以了。
刚刚的第一步叫one-hot编码。这一步的压缩叫嵌入转换。
接着,给3个向量加上位置编码。
比如,第一个词Jack标记它处于0位置,第二个is处于1位置,第三
个weak处于2位置。这些位置信息也是1024长度的一个向量。有人
问为什么,因为“自注意力机制自身不具备处理序列中元素顺序的能力,
所以必须提供位置信息,以便模型能理解单词在句子中的顺序”。但这
样的解释又附加了更多新知识点,比如自注意力机制是什么。所以,其
实你不用管,只需要知道,还得加上位置编码就行了。
加上以后,3个1024长度的向量进入第一个编码层。从这里开始,自
注意力机制就开始运转了。
同步日更微foufoushu
第一个编码层就叫作注意力编码层1。经过这一层计算后,输出依然是
3个1024长度的向量,只不过它们和进入之前不一样了。然后,再进
入注意力编码2层、3层、4层……对于GPT-2模型来说,一共进入后
面的24层,最后输出的还是3个1024长度的向量。
在最后一层向量输出后,根据最后一个向量的计算结果,就能查询到第
四个词接哪些词最合适,然后“Jackisweak”的下一个词就会出现了。
出现的这个词再和前3个词合并在一起,成为下一次的输入。这次就是
4个词的输入。然后再经过这几十层的注意力编码层,就能输出第5个
词。
文字接龙游戏就是这样一个字一个字往下续,最终遇到终止符就结束
了。
接下来,我们把注意力放在第一个注意力编码层上,具体看看里面发生
了什么。因为后面每一层发生的事情,逻辑都是一样的,只不过把层数
加多了而已。
在注意力编码层中,有两步计算——先算多头注意力,再算全连接。这
两步计算都有什么功能呢?算多头注意力的过程,能把问题中每
您可能关注的文档
- 《今日简史》 思维导图.pptx
- 《人才胜任力(素质)模型的起源与构建》.pptx
- 《认知觉醒》读书笔记.pdf
- 2024亚马逊品牌运营地图.pdf
- 现有产品线--渠道合作模式 -2023版本(1).pdf
- 日化行业社媒营销报告.pdf
- 2022中国婴童食品行业研究报告.pdf
- 城市媒体的地方沟通性——解...闻的城市地方构成分析(下)_谢静.pdf
- 基于招聘网站的电子商务岗位能力要求研究_刘亚宁.pdf
- 商品在线评论数据对消费者购买的影响_李佳星.pdf
- [专精特新]金华永和氟化工有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]重庆升光电力印务有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]无锡巨力重工股份有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]江西凯安新材料集团股份有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]浙江永昌电气股份有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]苏州中创铝业有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]杭州汽轮铸锻有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]浙江美声智能系统有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]汕头市虹桥包装实业有限公司行业竞争力评级分析报告(2023版).pdf
- [专精特新]江西亚中电子科技股份有限公司行业竞争力评级分析报告(2023版).pdf
文档评论(0)