自然语言处理开发与应用-基于深度学习的NLP模型-GPT(原创) (1).pptx

自然语言处理开发与应用-基于深度学习的NLP模型-GPT(原创) (1).pptx

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

GPT

01GPT理论讲解目录contents

GPT理论讲解第一部分引言GPT和语言模型GPT演进GPT模型架构总结

引言在过去的几年中,BERT、TransformerXL、XLNet等大型自然语言处理模型轮番在各大自然语言处理任务排行榜上刷新最佳纪录,可谓你方唱罢我登场。其中,GPT由于其稳定、优异的性能吸引了业界的关注

引言近年涌现出了许多机器学习的精彩应用,令人目不暇接,OpenAI的GPT系列就是其中之一。它在文本生成上有着惊艳的表现,其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言,GPT系列并没有特别新颖的架构,它和只带有解码器的transformer模型很像。然而,GPT系列有着超大的规模,它是一个在海量数据集上训练的基于transformer的巨大模型。GPT系列成功的背后究竟隐藏着什么秘密?本节将带你一起探索取得优异性能的GPT系列模型架构,重点阐释其中关键的自注意力(self-attention)层,并且看一看GPT系列采用的只有解码器的transformer架构在语言建模之外的应用。

GPT和语言建模首先,究竟什么是语言模型(languagemodel)?简单说来,语言模型的作用就是根据已有句子的一部分,来预测下一个单词会是什么。最著名的语言模型你一定见过,就是我们手机上的输入法,它可以根据当前输入的内容智能推荐下一个词。

GPT和语言建模从这个意义上说,我们可以说GPT基本上相当于输入法的单词联想功能,但它比手机上安装的此类应用大得多,也更加复杂。OpenAI的研究人员使用了一个从网络上爬取的40GB超大数据集「WebText」训练GPT-2,该数据集也是他们的工作成果的一部分。后续的模型结构均以GPT-2为例讲解。

GPT和语言建模如果从占用存储大小的角度进行比较,手机输入法一般占用50MB-100MB的空间,而GPT-2的最小版本也需要至少500MB的空间来存储它的全部参数,最大版本的GPT-2甚至需要超过6.5GB的存储空间。同学们可以用「AllenAIGPT-2Explorer」(/?text=Joel%20is)来体验GPT-2模型。它可以给出可能性排名前十的下一个单词及其对应概率,你可以选择其中一个单词,然后看到下一个可能单词的列表,如此往复,最终完成一篇文章。

GPT模型架构原始的transformer模型由编码器(encoder)和解码器(decoder)组成,二者都是由被我们称为「transformer模块」的部分堆叠而成。这种架构在机器翻译任务中取得的成功证实了它的有效性,值得一提的是,这个任务之前效果最好的方法也是基于编码器-解码器架构的。

GPT模型架构Transformer的许多后续工作尝试去掉编码器或解码器,也就是只使用一套堆叠的尽可能多的transformer模块,然后使用海量文本、耗费大量的算力进行训练(研究者往往要投入数百甚至数千美元来训练这些语言模型,而在AlphaStar项目中则可能要花费数百万美元)。

GPT模型架构那么究竟能将这些模块堆叠到多深呢?事实上,这个问题的答案也就是区别不同GPT-2模型的主要因素之一,如下图所示。「小号」的GPT-2模型堆叠了12层,「中号」24层,「大号」36层,还有一个「特大号」堆叠了整整48层。

GPT模型架构GPT-2是使用「transformer解码器模块」构建的,而BERT则是通过「transformer编码器」模块构建的。二者很关键的不同之处在于:GPT-2就像传统的语言模型一样,一次只输出一个单词(token)。下面是引导训练好的模型「背诵」机器人第一法则的例子:与BERT的区别

GPT模型架构GPT-2是使用「transformer解码器模块」构建的,并对TransformerDecoder进行了一些改动,原本的Decoder包含了两个Multi-HeadAttention结构,GPT只保留了MaskMulti-HeadAttention。

GPT模型架构这种模型之所以效果好是因为在每个新单词产生后,该单词就被添加在之前生成的单词序列后面,这个序列会成为模型下一步的新输入。这种机制叫做自回归(auto-regression),同时也是令RNN模型效果拔群的重要思想。GPT-2,以及一些诸如TransformerXL和XLNet等后续出现的模型,本质上都是自回归模型,而BERT则不然。这就是一个权衡的问题了。虽然没有使用自回归机制,但BERT获得了结合单词前后的上下文信息的能力,从而取得了更好的效果。XLN

您可能关注的文档

文档评论(0)

方世玉 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6101050130000123

1亿VIP精品文档

相关文档