清华社教学课件深入浅出大语言模型第三章 Transformer模型(五).pptxVIP

  • 1
  • 0
  • 约小于1千字
  • 约 11页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第三章 Transformer模型(五).pptx

第三章Transformer模型(五)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

3.7Transformer模型共l层共l层回顾:注意力机制自注意力机制多头注意力机制残差连接层归一化

3.7.1Transformer的编码器编码器输入层多个编码层相同的结构共l层共l层

1,编码器的输入层为什么引入位置信息“张三比李四高”和“李四比张三高”循环神经网络按顺序处理单词,隐含了位置信息Transformer模型注意力机制只考虑了两个词的关系没有考虑位置信息引入位置向量同词向量一样,位置也用向量表示

1,编码器的输入层?

1,编码器的输入层??

2,编码器的编码层???共l层共l层

2,编码器的编码层第一个编码层共l层共l层

2,编码器的编码层最后一个编码层语法语义共l层共l层

敬请关注“跟我学AI”公众号B站获取PPT

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档