- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度学习在计算机视觉、自然语言处理等领域取得了很多重大突破。神经
网络的表达能力通常随着其网络深度呈指数增长,这一特性赋予了它很强的泛
化能力。然而深层的网络也产生了梯度消失或梯度爆炸,以及模型中的信息传
递变差等一系列问题。研究人员使用精心设计的权值初始化方法、 BatchNorm
或 LayerNorm 这类标准化技术来缓解以上问题,然而这些技术往往会耗费更多
计算资源,或者存在其自身的局限。
这个想法其实非常简单: ReZero 将所有网络层均初始化为恒等映射。在每
一层中,研究者引入了一个关于输入信号 x 的残差连接和一个用于调节当前网
络层输出 F(x) 的可训练参数 α,即:
在刚开始训练的时候将 α 设置为零。这使得在神经网络训练初期,所有组
成变换 F 的参数所对应的梯度均消失了,之后这些参数在训练过程中动态地产
生合适的值。改进的网络结构如下图所示:
ReZero 主要带来了以下两个益处:
1. 能够训练更深层神经网络
学习信号能够有效地在深层神经网络中传递,这使得我们能够训练一些之前所
无法训练的网络。研究者使用 ReZero 成功训练了具有一万层的全连接网络,
首次训练了超过 100 层的 Tansformer 并且没有使用学习速率热身和
LayerNorm 这些奇技淫巧。
2. 更快的收敛速度
与带有标准化操作的常规残差网络相比, ReZero 的收敛速度明显更快。当
ReZero 应用于 Transformer 时,在 enwiki8 语言建模基准上,其收敛速度比
一般的 Transformer 快 56%,达到 1.2BPB 。当 ReZero 应用于 ResNet ,在
CIFAR 10 上可实现 32% 的加速和 85% 的精度。
ReZero (residual with zero initialization)
ReZero 对深度残差网络的结构进行了简单的更改,可促进动态等距
(dynamical isometry )并实现对极深网络的有效训练。研究者在初始阶段没
有使用那些非平凡函数 F[W_i] 传递信号,而是添加了一个残差连接并通过初
始为零的 L 个可学习参数 α_i (作者称其为残差权重)来重新缩放该函数。
目前,信号根据以下方式进行传递:
在初始阶段,该网络表示为恒等函数并且普遍满足动态等距关系。在该架
构修改中,即使某一层的 Jacobian 值消失,也可以训练深度网络(正如 ReLU
激活函数或自注意力机制出现这样的状况)。这一技术还可以在现有的已训练
网络上添加新层。
实验结果
更快的深层全连接网络训练
图 3 展示了训练损失的演变过程。在一个简单实验中,一个使用了
ReZero 的 32 层网络,拟合训练数据的收敛速度相比其他技术快了 7 到 15
倍。值得注意的是,与常规的全连接网络相比,残差连接在没有额外的标准化
层时会降低收敛速度。这可能是因为初始化阶段信号的方差并不独立于网络深
度。
随着深度的增加, ReZero 架构的优势更加明显。为了验证该架构可用于深
度网络训练,研究者在一台配备 GPU 的笔记本电脑上成功训练了多达 1 万层
的全连接 ReZero 网络,使其在训练数据集上过拟合。
更快的深层 Transformer 训练
研究者提出,常规的 Transformer 会抑制深层信号传递,他们在输入序列
x 的 n x d 个 entry 的无穷小变化下评估其变化,获得注意力处理的输入
您可能关注的文档
- 社区团购团长合作协议资料.pdf
- 社群运营的必备思路.pdf
- 社团活动第十期简报.pdf
- 社团活动计划.pdf
- 社团活动计划表.pdf
- 社团周年庆典主持词串词.pdf
- 射流风机使用说明.pdf
- 射线检测通用工艺规程资料.pdf
- 射影定理专题训练资料.pdf
- 涉税服务实务题库(32)资料.pdf
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].docx
- 情绪价值系列报告:春节消费抢先看-国证国际证券.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(解析版).docx
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].docx
- 液冷盲插快接头发展研究报告-全球计算联盟.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(原卷版).docx
- 精品解析:北京市东直门中学2024届高三考前练习数学试卷(解析版).docx
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第2章 人体的神经调节》大单元整体教学设计[2020课标].docx
文档评论(0)