- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;源自谷歌公司2017年的一篇论文“注意力就是你所需要的”,Transformer是一种在自然语言处理领域中广泛使用的深度学习模型,其主要特点是使用了“自注意力”机制,允许模型在处理序列数据时考虑所有元素的上下文关系。
Transformer模型首先应用于机器翻译的神经网络模型架构,目标是从源语言转换到目标语言,Transformer模型完成了对源语言序列和目标语言序列全局依赖的建模。因为它适用于并行计算,其模型复杂程度使它在精度和性能上较其他模型更好,如今,几乎全部大语言模型都基于Transformer结构。;可以简单地把Transformer看成是一个黑盒子,当我们在做文本翻译任务时,输入一段中文,经过这个黑盒子之后,输出来的就是翻译过来的英文。
输入一个文本时,由编码器模块对该文本编码,然后传入解码器模块进行解码,得到翻译后的文本。;为进一步细化自注意力机制层,增加了“多头注意力机制”的概念,从两个方面提高了自注意力层的性能。
第一个方面,扩展了模型关注不同位置的能力。
第二个方面,给自注意力层多个“表示子空间”。
;Transformer模型主要由编码器和解码器两部分组成。
(1)编码器:由多个相同的层组成,每一层都有两个子层。
第一个子层是自注意力层,考虑输入序列中所有元素的上下文关系。第二个子层是一个前馈神经网络。
每个子层后面都跟有一个残差连接和层归一化。
编码器的任务是将输入序列转换为
一组连续的表示,这些表示考虑了
输入序列中每个元素的上下文。;(2)解码器:也由多个相同的层组成,每一层有三个子层。
第一个子层是自注意力层,它在处理当前元素时,只考虑该元素及其之前的元素,不考虑其后的元素,这种机制被称为掩码自注意力。
第二个子层是一个编码器-解码器注意力层,它使解码器可以关注到编码器的输出。
第三个子层是一个前馈神经网络。
每个子层后面都跟有一个残差连接和层归一化。解码器的任务是基于编码器的输出和前面已经生成的元素,生成下一个元素。;先通过输入嵌入层将每个单词转换为其相对应的向量表示。在从输入到输出的语义抽象过程中,主要涉及如下几个模块。
(1)注意力层:自注意力操作是基于Transformer的机器翻译模型的基本操作,在源语言的编码和目标语言的生成中频繁地被使用,以建模源语言、目标语言任意两个单词之间的依赖关系。使用多头注意力机制整合上下文语义,它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构,从而更好地解决文本的长程依赖问题。;(2)位置感知前馈网络层:前馈层接收自注意力子层的输出作为输入,并通过一个带有激活函数的两层全连接网络对输入文本序列中的每个单词表示进行更复杂的非线性变换。
由Transformer结构组成的网络结构通常都非常庞大。编码器和解码器均由多层基本Transformer块组成,每一层中都包含复杂的非线性映射,这就导致模型的训练比较困难。因此在Transformer块中进一步引入残差连接与层归一化技术,以进一步提升训练的稳定性。主要是使用一条直连通道将对应子层的输入连接到输出,避免因优化产生潜在梯度消失问题。;计算机视觉领域采用ImageNet(数据集)对模型进行一次预训练,使得模型可以通过海量图像充分学习如何提取特征,再根据任务目标进行模型微调。受此范式影响,自然语言处理领域基于预训练语言模型的方法也逐渐成为主流。以ELMo为代表的动态词向量模型开始了语言模型预训练,此后,以GPT(生成式预训练)和BERT(来自变压器的双向编码器表示)为代表的基于Transformer的大规模预训练语言模型出现,使自然语言处理全面开启预训练微调范式。;利用丰富的训练数据、自监督的预训练任务及Transformer等深度神经网络结构,预训练语言模型具备了通用且强大的自然语言表示能力,能够有效地学习到词汇、语法和语义信息。将预训练模型应用于下游任务时,不需要了解太多的任务细节,不需要设计特定的神经网络结构,只需要“微调”预训练模型,即使用具体任务的标注数据在预训练语言模型上进行监督训练,就可以取得显著的性能提升。;OpenAI公司在2018年提出的GPT是典型的生成式预训练语言模型,它由多层Transformer组成单向语言模型,主要分为输入层、编码层和输出层三部分。
图2-13GPT的模型结构;(1)无监督预训练。GPT采用生成式预训练方法,单向意味着模型只能从左到右或从右到左地对文本序列建模,所采用的Transformer结构和解码策略保证了输入文本每个位置只能依赖过去时刻的信息。
(2)有监督下游任务微调。通过无监督语言模型预训练,使得GPT模型具备了一定的通用语义表示能力。下游任务微调的目的是在通用语义表示的基础上,根据下游任务的特性进行适配。下游任务通常需要利用有
文档评论(0)