深度学习简明教程 课件 第14章 Transformer网络.pptx

深度学习简明教程 课件 第14章 Transformer网络.pptx

第14章Transformer网络;14.1Transformer基础知识;

;

Transformer的模型结构如图14.1所示,它主要由以下几个模块组成。;

;

;

;

;

;

;

;

;

;

;

;

基于模型架构的改进包括多种,如对自注意力结构的改进,以及对编码器或解码器的结构设计,其中大多数是针对自注意力模块的改进。由于Transformer是基于自注意力模块的深度神经网络,因此模块计算时的复杂度和内存占用相对会更高一些。并且自注意力模块会使模型在面对长序列时无法更好地记住上下文信息,导致训练效果较差。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档