清华社教学课件深入浅出大语言模型第三章 Transformer模型(六).pptxVIP

  • 1
  • 0
  • 约1.36千字
  • 约 24页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第三章 Transformer模型(六).pptx

第三章Transformer模型(六)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

3.7.2Transformer模型的解码器解码器输入层多个解码层相同的结构共l层共l层

1,解码器的输入解码器一次预测一个单词输出序列前后具有联系翻译为例:“我是一个学生”=“Iamastudent”解码器的输入:编码器输出的中间结果决定了说什么解码器已有的输出决定了如何说共l层共l层

2,解码器的输入层??

2,解码器的输入层??

3,解码器的解码层???共l层共l层

输入层的输出即含有位置编码的解码器的已有输出

3,解码器的解码层第一个解码层共l层共l层

3,解码器的解码层最后一个解码层语义语法共l层共l层

4,层归一化的位置后置层归一化残差连接后做层归一化优点:可以更好地适应下游任务不足:初期训练梯度不稳定前置层归一化多头注意机制前全连接网络前优点:有助于训练稳定性不足:需要仔细调整学习率和优化策略最后一层增加后置层归一化最后一层时

5,解码器的解码过程??我是一个学生EOS=Iamastudent.

6,掩码技术问题编码器输入是一起输入的,单词间可以两两做注意力计算双向的解码器自回归模型单向的利用已有

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档