清华社教学课件深入浅出大语言模型第三章 Transformer模型(四).pptxVIP

  • 0
  • 0
  • 约小于1千字
  • 约 11页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第三章 Transformer模型(四).pptx

第三章Transformer模型(四)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

3.5残差连接残差网络残差连接

3.5残差连接残差连接的一般形式

Transformer中的两种残差连接与全连接神经网络结合的残差连接用全连接代替卷积神经网络

Transformer中的两种残差连接与多头自注意力机制结合的残差连接用多头自注意力机制代替卷积神经网络

3.6层归一化内部协变量偏移问题(ICS)Transformer中多层编码和解码参数更新导致数据分布产生变化多层处理加剧这种变化导致系统极度不稳定增加训练难度神经网络中普遍存在的问题

3.6层归一化解决办法归一化处理使得数据分布具有相同的均值和均方差不同的角度构成了不同的归一化方法

3.6层归一化????

3.6层归一化存在的问题Sigmoid函数在[-1,1]范围内可以认为是近似线性正态分布N(0,1)约68%数据落入[-1,1]非线性是神经网络的重要属性ReLU函数过滤掉50%的数值

3.6层归一化???平移缩放???

敬请关注“跟我学AI”公众号B站获取PPT

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档