从sgd到adam深度学习优化算法概览(一).pdfVIP

下载本文档

1
0
约5.32千字
约 5页
2021-09-01 发布于上海
举报

从sgd到adam深度学习优化算法概览(一).pdf

从 SGD 到 Adam —— 深度学习优化算法概览 (一) 楔子前些日在写计算数学课的期末读书报告，我选择的主题是「分析深度学习中的各个优化算法」。在此前的工作中，自己通常就是无脑「 Adam 大法好」，而对算法本身的内涵不知所以然。一直希望能抽时间系统的过一遍优化算法的发展历程，直观了解各个算法的长处和短处。这次正好借着作业的机会，补一补课。本文主要借鉴了 @Juliuszh 的文章 [1] 思路，使用一个 general 的框架来描述各个梯度下降变种算法。实际上，本文可以视作对 [1] 的重述，在此基础上，对原文描述不够详尽的部分做了一定补充，并修正了其中许多错误的表述和公式。另一主要参考文章是 Sebastian Ruder 的综述 [2] 。该文十分有名，大概是深度学习优化算法综述中质量最好的一篇了。建议大家可以直接阅读原文。本文许多结论和插图引自该综述。对优化算法进行分析和比较的文章已有太多，本文实在只能算得上是重复造轮，旨在个人学习和总结。希望对优化算法有深入了解的同学可以直接查阅文末的参考文献。引言最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域，优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下，采用不同的优化算法，也很可能导致截然不同的训练效果。梯度下降是目前神经网络中使用最为广泛的优化算法之一。为了弥补朴素梯度下降的种种缺陷，研究者们发明了一系列变种算法，从最初的 SGD ( 随机梯度下降 ) 逐步演进到 NAdam 。然而，许多学术界最为前沿的文章中，都并没有一味使用 Adam/NAdam 等公认“好用”的自适应算法，很多甚至还选择了最为初级的 SGD 或者 SGD with Momentum 等。本文旨在梳理深度学习优化算法的发展历程，并在一个更加概括的框架之下，对优化算法做出分析和对比。 Gradient Descent 梯度下降是指，在给定待优化的模型参数和目标函数后，算法通过沿梯度的相反方向更新来最小化。学习率决定了每一时刻的更新步长。对于每一个时刻，我们可以用下述步骤描述梯度下降的流程： (1) 计算目标函数关于参数的梯度 (2) 根据历史梯度计算一阶和二阶动量 (3) 更新模型参数其中，为平滑项，防止分母为零，通常取 1e-8 。Gradient Descent 和其算法变种根据以上框架，我们来分析和比较梯度下降的各变种算法。 Vanilla SGD 朴素 SGD (Stochastic Gradient Descent) 最为简单，没有动量的概念，即这时，更新步骤就是最简单的 SGD 的缺点在于收敛速度慢，可能在鞍点处震荡。并且，如何合理的选择学习率是 SGD 的一大难点。 MomentumSGD 在遇到沟壑时容易陷入震荡。为此，可以为其引入动量 Momentum[3] ，加速 SGD 在正确方向的下降并抑制震荡。 SGD-M 在原步长之上，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

从sgd到adam深度学习优化算法概览(一).pdfVIP