- 0
- 0
- 约小于1千字
- 约 11页
- 2026-05-25 发布于广东
- 举报
第三章Transformer模型(四)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号
3.5残差连接残差网络残差连接
3.5残差连接残差连接的一般形式
Transformer中的两种残差连接与全连接神经网络结合的残差连接用全连接代替卷积神经网络
Transformer中的两种残差连接与多头自注意力机制结合的残差连接用多头自注意力机制代替卷积神经网络
3.6层归一化内部协变量偏移问题(ICS)Transformer中多层编码和解码参数更新导致数据分布产生变化多层处理加剧这种变化导致系统极度不稳定增加训练难度神经网络中普遍存在的问题
3.6层归一化解决办法归一化处理使得数据分布具有相同的均值和均方差不同的角度构成了不同的归一化方法
3.6层归一化????
3.6层归一化存在的问题Sigmoid函数在[-1,1]范围内可以认为是近似线性正态分布N(0,1)约68%数据落入[-1,1]非线性是神经网络的重要属性ReLU函数过滤掉50%的数值
3.6层归一化???平移缩放???
敬请关注“跟我学AI”公众号B站获取PPT
您可能关注的文档
- 清华社课件循序渐进python程序设计第11章Matplotlib库应用基础.pptx
- 清华社课件循序渐进python程序设计第7章文件处理.pptx
- 清华社课件循序渐进python程序设计第2章数据类型.pptx
- 清华社课件循序渐进python程序设计第10章Pandas库的使用.pptx
- 清华社课件循序渐进python程序设计第9章Numpy库的使用.pptx
- 清华社课件循序渐进python程序设计第4章 函数应用.pptx
- 清华社课件循序渐进python程序设计第3章 基本语句.pptx
- 清华社课件计算与人工智能第2章 简单问题求解.pptx
- 清华社课件计算与人工智能第10章 科学计算.pptx
- 清华社课件计算与人工智能第6章:数组.pptx
- 清华社教学课件深入浅出大语言模型第三章 Transformer模型(七-2).pptx
- 清华社课件仓颉语言面向对象程序语言设计第3章 函数编程.pptx
- 清华社教学课件深入浅出大语言模型第五章 BERT模型(二).pptx
- 清华社教学课件深入浅出大语言模型第四章 GPT模型(二).pptx
- 清华社教学课件深入浅出大语言模型‘第三章 Transformer模型(一).pptx
- 清华社课件仓颉语言面向对象程序语言设计第8章 集合与包PPT.pptx
- 清华社课件仓颉语言面向对象程序语言设计第4章 结构体、枚举及模式匹配.pptx
- 清华社课件仓颉语言面向对象程序语言设计第1章 面向对象编程概述.pptx
- 清华社课件计算与人工智能第1章 计算与人工智能概述.pptx
- 清华社课件计算与人工智能第12章 计算机视觉与大模型.pptx
原创力文档

文档评论(0)