- 19
- 0
- 约1.68万字
- 约 168页
- 2025-08-25 发布于湖南
- 举报
第四章Transformer徐俊刚深度学习
注意力机制1Transformer2GPT系列模型3BERT系列模型45目录ContentsTransformer的主要应用6SwinTransformer本章人物7中英文术语对照8
注意力机制13
4人类注意力机制
5人类注意力机制
人类注意力机制6
7注意力机制?DzmitryBahdanau,etal.,?Neuralmachinetranslationbyjointlylearningtoalignandtranslate.Proceedingsofthe3rdInternationalConferenceonLearningRepresentations,2015.
8注意力机制在神经机器翻译中,Encoder一般采用RNN或者LSTM来实现。得到上下文向量??的方法有很多,可以直接将最后一个隐状态作为上下文变量,也可对最后的隐状态进行一个非线性变换σ(?),或对所有的隐状态进行非线性变换σ(?)。?
9注意力机制?
10注意力机制?
11注意力机制以上结构存在的问题输入序列不论长短都会被编码成一个固定长度的向量??表示,而解码则受限于该固定长度的向量表示。如果源语言输入序列比较长,这种结构会导致固定长度的语义向量??可能无法存储全部的语义信息,而注意力机制的提出则解决了这个问题。
12注意力机制?
13注意力机制神经网络模型注意力机制?
14注意力机制的简介注意力系数计算计算注意力系数的相似函数有以下常见的几种:??
15Target注意力机制的抽象理解
阶段1:根据Query和Key计算两者的相似性或者相关性阶段2:对第一阶段的原始分值进行归一化处理阶段3:根据权重系数对Value进行加权求和,得到AttentionValueSource(K,V)Target(Q)16注意力机制的抽象理解
17注意力机制的抽象理解
18注意力机制的分类全局注意力:指Decoder端的注意力计算时要考虑Encoder端输入序列中所有的序列。
19注意力机制的分类?
20注意力机制的分类??
21注意力机制自注意力
22注意力机制自注意力
23注意力机制自注意力
24注意力机制自注意力
25注意力机制自注意力
Transformer226
Transformer的结构27编码器负责理解输入,为每个输入构造对应的语义表示。解码器负责以自回归的方式逐个生成输出序列中的元素。
Transformer的结构28Transformer的编码器由6个相同的层堆叠而成,每个层包含两个子层,分别是多头自注意力层和前馈神经网络层。其中,多头自注意力是Transformer的核心。此外,在两个子层中,Transformer使用残差连接(ResidualConnection)和层归一化(LayerNormalization,LN)机制进行性能优化。
Transformer的结构29??
Transformer的结构30Transformer的解码器也是由6个相同的层堆叠而成。与编码器不同的是,解码器的每层还包含第三个子层,第三个子层对编码器的输出进行多头自注意力计算。另外,与编码器中的多头自注意力子层(第一个子层)不同的是,解码器中的第一个子层中的多头自注意力使用了掩码(Mask)操作,因此在解码过程中,解码器只可以看到已经生成的解码序列,对未来即将生成的单词,需要进行掩码。在解码器的三个子层中,同样使用残差连接和层归一化机制进行了性能优化。
Transformer的输入编码31Transformer首先将输入序列转换成词嵌入(WordEmbedding)向量(简称词向量)。在实现过程中,词向量可以随机初始化后随网络训练得到,也可以加载预先训练好的词向量表示,如Word2Vec、Glove等。为了使得Transformer架构能够在编码输入序列时包含位置信息,在词向量之外,还增加了位置嵌入(PositionEmbedding)向量(简称位置向量)。
Transformer的输入编码32??
Transformer的输入编码33?
Transformer的输入编码34
Transformer中的自注意力机制35??
Transformer中的自注意力机制36??
Transformer中的自注意力机制37Transformer可以并行地执行自注意力机制,因此在自注意力机制的基础上设计了多头自注意力机制(Multi-headSelf-attentionMechanism)。
Transformer中的自注意力机制38?
Transformer中的自注意力机制39前面提到,在解码器中第三个子层是带有掩码操作的多头自注意力。就是说在t时刻解码到当前单词
您可能关注的文档
- 深度学习第2章 卷积神经网络.pptx
- 深度学习第3章 循环神经网络.pptx
- 深度学习第5章 生成对抗网络.pptx
- 深度学习第6章 深度生成模型.pptx
- 深度学习第7章 正则化与优化.pptx
- 深度学习-徐俊刚-全套ppt教学课件第0-8章 (1).pptx
- 深度学习-徐俊刚-全套ppt教学课件第0-8章 .pdf
- (43页PPT)贵州文旅5A级景区荔波小七孔抖音运营方案.pptx
- (43页PPT)黄小蕾Unit2PartB课件黄小蕾.pptx
- (41页PPT)知识付费托福TOEFL程序整合运营全案.pptx
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- PPAP培训课件(详细).pdf VIP
- 2023山东传媒职业学院教师招聘考试笔试试题2.pdf VIP
- 2025年数据中心五年建设:AI算力与投资方向报告.docx
- WebGIS原理及开发—基于开源框架的WebGIS技术493.pptx VIP
- 鹤煤三矿关于成立原煤车间智能选矸系统升级改造项目领导小组的通知.doc VIP
- 2023年山东传媒职业学院教师招聘考试笔试试题及答案解析.docx VIP
- 北师大版6六年级数学上册全套计算题专项练习16页.pdf VIP
- 2025中考语文名著阅读专题06 《昆虫记》真题练习(单一题)(学生版+解析版).docx
- Q_26 4003HJTG001-2019无心车床技术条件.pdf
- LC-2030C型高效液相色谱仪(设备编号)再确认方案 .pdf VIP
原创力文档

文档评论(0)