- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
ChatGPT-1到GPT-4的发展历程
OpenAI的GenerativePre-trainedTransformer(GPT)模型通过引入非常强大的语言模型,在自然语言处理(NLP)领域引起了巨大震动。这些模型可以执行各种NLP任务,如问题解答、文本蕴涵、文本总结等,而无需任何监督训练。这些语言模型只需要很少或根本不需要示例就可以理解任务并执行与以监督方式训练的最先进模型相当或甚至更好的任务。
下面将介绍这些模型的发展历程,并了解它们在近两年的时间里是如何演变的。我们从目标和概念、使用的数据集、模型架构和实现细节以及性能评估4个方面介绍。
一GPT-1
通过生成预训练(GPT-1)提高语言理解:
在这项工作之前,大多数最先进的NLP模型都是使用监督学习专门针对特定任务进行训练的,如情绪分类、文本蕴涵等。然而,监督模型有两个主要限制:
(1)需要大量注释数据来学习通常不容易获得的特定任务。
(2)无法概括自己所接受训练以外的任务。
GPT-1提出了使用未标记的数据学习生成语言模型,然后通过提供特定下游任务(如分类、情感分析、文本蕴涵等)的示例来微调该模型。
无监督学习作为监督微调模型的预训练目标,因此称为生成预训练。
1.学习目标和概念
NLP任务的半监督学习(无监督预训练后有监督微调)包括以下三个部分:
a.无监督语言建模(预训练):对于无监督学习,使用标准语言模型目标。
其中T是无监督数据{t_1,…,t_n}中的标记集,k是上下文窗口的大小,θ是使用随机梯度下降训练的神经网络的参数。
b.监督微调:本部分旨在最大化观察标签y、给定特征或标记x_1、…、x_n的可能性。
其中C是由训练示例组成的标记数据集。
作者没有简单地最大化等式(ii)中提到的目标,而是添加了一个辅助学习目标用于监督微调,以获得更好的泛化和更快的收敛。修改后的培训目标表述为:
其中L?(C)是学习语言模型的辅助目标,λ是赋予该次要学习目标的权重。λ设置为0.5。
监督微调是通过向转换模型添加一个线性层和一个softmax层来获得下游任务的任务标签来实现的。
c.任务特定输入转换:为了在微调过程中对模型的架构进行最小的更改,将特定下游任务的输入转换为有序序列。令牌按以下方式重新排列:
-开始和结束标记被添加到输入序列中。
-在示例的不同部分之间添加了分隔符标记,以便可以按顺序发送输入。对于回答问题、选择题等任务,每个示例都发送了多个序列。例如,由上下文、问题和答案序列组成的训练示例。
2.数据集
GPT-1使用BooksCorpus数据集来训练语言模型。BooksCorpus有大约7000本未出版的书,这些书有助于根据未发现的数据训练语言模型。该数据不太可能在下游任务的测试集中找到。此外,这个语料库有大量的连续文本,这有助于模型学习大范围的依赖关系。
3.模型架构和实现细节
GPT-1使用了12层仅解码器的转换器结构,并对训练语言模型进行了自我关注。模型的架构在很大程度上与转换器的原始工作中描述的相同。掩蔽有助于实现语言模型目标,其中语言模型不能访问当前单词右侧的后续单词。
以下是实施细节:
a.对于无监督培训:
?使用了具有40,000个合并的字节对编码(BPE)词汇表。
?模型使用768维状态将标记编码为词嵌入。位置嵌入也是在训练期间学习的。
?使用12层模型,每个自注意力层有12个注意力。
?对于位置前馈层,使用了3072维状态。
?使用Adam优化器,学习率为2.5e-4。
?注意力、残差和嵌入丢失被用于正则化,丢失率为0.1。L2正则化的修改版本也用于非偏置权重。
?GELU用作激活函数。
?该模型在大小为64、序列长度为512的小批量上训练了100个周期。该模型总共有117M个参数。
b.对于监督微调:
?大多数下游任务的监督微调只需3个周期。这表明该模型在预训练期间已经学习了很多关于语言的知识。因此,最小的微调就足够了。
?来自无监督预训练的大多数超参数用于微调。
4.总结
GPT-1在12项任务中的9项中的表现优于专门训练的受监督的最先进模型。
该模型的另一个重要成就是其在各种任务上的零样本性能。由于预训练,该模型在不同的NLP任务(如问题回答、模式解决、情绪分析等)上的零样本性能有所改进。
GPT-1证明语言模型是一个有效的预训练目标,可以帮助模型很好地推广。该体系结构促进了迁移学习,并且可以执行各种NLP任务,只需很少的微调。该模型显示了生成性预训练的力量,并为其他模型开辟了道路,这些模型可以通过更大的数据集和更多的参数更好地释放这种潜力。
二GPT-2
语言模型是无监督的多任务学习(GPT-2):
GPT-2模型的发展主要是在使用更大的数
文档评论(0)