深度学习与大模型 习题及答案 第7章-大模型概述-课后习题.docx

深度学习与大模型 习题及答案 第7章-大模型概述-课后习题.docx

第7章大模型概述

问答题

1.简述Transformer模型的基本结构。

答:Transformer模型核心基于自注意力机制,由编码器(Encoder)和解码器(Decoder)两大模块构成,辅以输入嵌入、位置编码、层归一化及全连接层。

编码器通常堆叠N个相同层,每层含多头自注意力机制与前馈神经网络,且均搭配残差连接和层归一化,负责提取输入序列的全局上下文特征;解码器同样堆叠N层,在编码器层结构基础上,新增掩码多头自注意力(防止前瞻)和编码器-解码器交叉注意力(关联输入特征),负责逐元素生成目标序列。输入嵌入将离散元素转为向量,位置编码注入序列顺序信息,最终通过输出层映

文档评论(0)

1亿VIP精品文档

相关文档