深度学习第4章 Transformer.pptxVIP

下载本文档

19
0
约1.68万字
约 168页
2025-08-25 发布于湖南
举报

深度学习第4章 Transformer.pptx

第四章Transformer徐俊刚深度学习

注意力机制1Transformer2GPT系列模型3BERT系列模型45目录ContentsTransformer的主要应用6SwinTransformer本章人物7中英文术语对照8

注意力机制13

4人类注意力机制

5人类注意力机制

人类注意力机制6

7注意力机制?DzmitryBahdanau,etal.,?Neuralmachinetranslationbyjointlylearningtoalignandtranslate.Proceedingsofthe3rdInternationalConferenceonLearningRepresentations,2015.

8注意力机制在神经机器翻译中，Encoder一般采用RNN或者LSTM来实现。得到上下文向量??的方法有很多，可以直接将最后一个隐状态作为上下文变量，也可对最后的隐状态进行一个非线性变换σ(?)，或对所有的隐状态进行非线性变换σ(?)。?

9注意力机制?

10注意力机制?

11注意力机制以上结构存在的问题输入序列不论长短都会被编码成一个固定长度的向量??表示，而解码则受限于该固定长度的向量表示。如果源语言输入序列比较长，这种结构会导致固定长度的语义向量??可能无法存储全部的语义信息，而注意力机制的提出则解决了这个问题。

12注意力机制?

13注意力机制神经网络模型注意力机制?

14注意力机制的简介注意力系数计算计算注意力系数的相似函数有以下常见的几种：??

15Target注意力机制的抽象理解

阶段1：根据Query和Key计算两者的相似性或者相关性阶段2：对第一阶段的原始分值进行归一化处理阶段3：根据权重系数对Value进行加权求和，得到AttentionValueSource(K,V）Target(Q）16注意力机制的抽象理解

17注意力机制的抽象理解

18注意力机制的分类全局注意力：指Decoder端的注意力计算时要考虑Encoder端输入序列中所有的序列。

19注意力机制的分类?

20注意力机制的分类??

21注意力机制自注意力

22注意力机制自注意力

23注意力机制自注意力

24注意力机制自注意力

25注意力机制自注意力

Transformer226

Transformer的结构27编码器负责理解输入，为每个输入构造对应的语义表示。解码器负责以自回归的方式逐个生成输出序列中的元素。

Transformer的结构28Transformer的编码器由6个相同的层堆叠而成，每个层包含两个子层，分别是多头自注意力层和前馈神经网络层。其中，多头自注意力是Transformer的核心。此外，在两个子层中，Transformer使用残差连接（ResidualConnection）和层归一化（LayerNormalization，LN）机制进行性能优化。

Transformer的结构29??

Transformer的结构30Transformer的解码器也是由6个相同的层堆叠而成。与编码器不同的是，解码器的每层还包含第三个子层，第三个子层对编码器的输出进行多头自注意力计算。另外，与编码器中的多头自注意力子层（第一个子层）不同的是，解码器中的第一个子层中的多头自注意力使用了掩码（Mask）操作，因此在解码过程中，解码器只可以看到已经生成的解码序列，对未来即将生成的单词，需要进行掩码。在解码器的三个子层中，同样使用残差连接和层归一化机制进行了性能优化。

Transformer的输入编码31Transformer首先将输入序列转换成词嵌入（WordEmbedding）向量（简称词向量）。在实现过程中，词向量可以随机初始化后随网络训练得到，也可以加载预先训练好的词向量表示，如Word2Vec、Glove等。为了使得Transformer架构能够在编码输入序列时包含位置信息，在词向量之外，还增加了位置嵌入（PositionEmbedding）向量（简称位置向量）。

Transformer的输入编码32??

Transformer的输入编码33?

Transformer的输入编码34

Transformer中的自注意力机制35??

Transformer中的自注意力机制36??

Transformer中的自注意力机制37Transformer可以并行地执行自注意力机制，因此在自注意力机制的基础上设计了多头自注意力机制(Multi-headSelf-attentionMechanism)。

Transformer中的自注意力机制38?

Transformer中的自注意力机制39前面提到，在解码器中第三个子层是带有掩码操作的多头自注意力。就是说在t时刻解码到当前单词

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

深度学习第4章 Transformer.pptxVIP