网站大量收购闲置独家精品文档,联系QQ:2885784924

神经网络之解决梯度消失或爆炸.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度学习在计算机视觉、自然语言处理等领域取得了很多重大突破。神经 网络的表达能力通常随着其网络深度呈指数增长,这一特性赋予了它很强的泛 化能力。然而深层的网络也产生了梯度消失或梯度爆炸,以及模型中的信息传 递变差等一系列问题。研究人员使用精心设计的权值初始化方法、 BatchNorm 或 LayerNorm 这类标准化技术来缓解以上问题,然而这些技术往往会耗费更多 计算资源,或者存在其自身的局限。 这个想法其实非常简单: ReZero 将所有网络层均初始化为恒等映射。在每 一层中,研究者引入了一个关于输入信号 x 的残差连接和一个用于调节当前网 络层输出 F(x) 的可训练参数 α,即: 在刚开始训练的时候将 α 设置为零。这使得在神经网络训练初期,所有组 成变换 F 的参数所对应的梯度均消失了,之后这些参数在训练过程中动态地产 生合适的值。改进的网络结构如下图所示: ReZero 主要带来了以下两个益处: 1. 能够训练更深层神经网络 学习信号能够有效地在深层神经网络中传递,这使得我们能够训练一些之前所 无法训练的网络。研究者使用 ReZero 成功训练了具有一万层的全连接网络, 首次训练了超过 100 层的 Tansformer 并且没有使用学习速率热身和 LayerNorm 这些奇技淫巧。 2. 更快的收敛速度 与带有标准化操作的常规残差网络相比, ReZero 的收敛速度明显更快。当 ReZero 应用于 Transformer 时,在 enwiki8 语言建模基准上,其收敛速度比 一般的 Transformer 快 56%,达到 1.2BPB 。当 ReZero 应用于 ResNet ,在 CIFAR 10 上可实现 32% 的加速和 85% 的精度。 ReZero (residual with zero initialization) ReZero 对深度残差网络的结构进行了简单的更改,可促进动态等距 (dynamical isometry )并实现对极深网络的有效训练。研究者在初始阶段没 有使用那些非平凡函数 F[W_i] 传递信号,而是添加了一个残差连接并通过初 始为零的 L 个可学习参数 α_i (作者称其为残差权重)来重新缩放该函数。 目前,信号根据以下方式进行传递: 在初始阶段,该网络表示为恒等函数并且普遍满足动态等距关系。在该架 构修改中,即使某一层的 Jacobian 值消失,也可以训练深度网络(正如 ReLU 激活函数或自注意力机制出现这样的状况)。这一技术还可以在现有的已训练 网络上添加新层。 实验结果 更快的深层全连接网络训练 图 3 展示了训练损失的演变过程。在一个简单实验中,一个使用了 ReZero 的 32 层网络,拟合训练数据的收敛速度相比其他技术快了 7 到 15 倍。值得注意的是,与常规的全连接网络相比,残差连接在没有额外的标准化 层时会降低收敛速度。这可能是因为初始化阶段信号的方差并不独立于网络深 度。 随着深度的增加, ReZero 架构的优势更加明显。为了验证该架构可用于深 度网络训练,研究者在一台配备 GPU 的笔记本电脑上成功训练了多达 1 万层 的全连接 ReZero 网络,使其在训练数据集上过拟合。 更快的深层 Transformer 训练 研究者提出,常规的 Transformer 会抑制深层信号传递,他们在输入序列 x 的 n x d 个 entry 的无穷小变化下评估其变化,获得注意力处理的输入

您可能关注的文档

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档