深度学习及其优化方法讲解.pptVIP

下载本文档

16
0
约7.64千字
约 54页
2017-03-18 发布于湖北
举报
版权申诉

深度学习及其优化方法讲解.ppt

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

优化方法-Nadam */25 可以看出，Nadam对学习率有了更强的约束，同时对梯度的更新也有更直接的影响; 一般而言，在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。优化方法-Visualization of algorithms */25 优化方法-Visualization of algorithms */25 Adagrad, Adadelta, RMSprop, 和 Adam效果明显优化方法-建议 */25 对于稀疏数据，尽量使用学习率可自适应的优化方法，不用手动调节，而且最好采用默认值； SGD通常训练时间更长，但是在好的初始化和学习率调度方案的情况下，结果更可靠；如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法； Adadelta，RMSprop，Adam是比较相近的算法，在相似的情况下表现差不多；在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。 References: */25 [1] Sebastian Ruder. An overview of gradient descent optimization algorithms. eprint arXiv:1609.04747, 2016.9. [2]Quoc V. Le, Jiquan Ngiam, Adam Coates, Abhik Lahiri, Bobby Prochnow, Andrew Y. Ng. On Optimization Methods for Deep Learning. Proceedings of the 28th International Conference on Machine Learning, ICML 2011, Bellevue, Washington, USA, June 28 - July 2, 2011. [3]/optimizing-gradient-descent/ [4]/dupuleng/articles/4165247. Html. [5]/majinlei121/article/details[6] /p [7] /llxrl/p/4338887.html. References: */25 [8] Nocedal and Wright, Numerical Optimization Martens, Hessian-Free optimization for Deep Learning */25 Thank you! 数学概念 */25 2、Hesse 矩阵（二阶导数） Hesse 矩阵常被应用于牛顿法解决的大规模优化问题，主要形式如下：当 f(x) 是下列形式：其中?x为列向量，A 是 n 阶对称矩阵，b 是 n 维列向量， c 是常数。f(x) 梯度是 Ax+b, Hesse 矩阵等于 A。数学概念 */25 3、Jacobian 矩阵 Jacobian 矩阵实际上是向量值函数的梯度矩阵，假设F:Rn→Rm 是一个从n维欧氏空间转换到m维欧氏空间的函数。这个函数由m个实函数组成: 这些函数的偏导数(如果存在)可以组成一个m行n列的矩阵(m by n)，这就是所谓的雅可比矩阵：优化方法 */25 1、Gradient Descent Gradient descent(steepest descent)，也叫批量梯度下降法Batch Gradient Descent，BSD，利用一阶的梯度信息找到函数局部最优解的一种方法，主要迭代公式如下: 其中，是第 k 次迭代我们选择移动的方向，是第 k 次迭代用 line search 方法选择移动的距离，每次移动的距离系数可以相同，也可以不同，有时候我们也叫学习率（learning rate）。优化方法 */25 1、Gradient Descent 该方法利用目标函数的局部性质，得到局部最优解，具有一定的“盲目性”，如果目标函数是一个凸优化问题，那么局部最优解就是全局最优解；每一次迭代的移动方向都与出发点的等高线垂直，此外，锯齿现象（ zig-zagging）将会导致收敛速度变慢: 优化方法 */25 2、Newton’s method 牛顿法则是利用局部的一阶和二阶偏导信息，推测整个目标函数的形状；进而可以求得出近似函数的全局最小值，然后将当前的最小值设定近似函数的最小值；相比最速下降法，牛顿法带有一定对全局的预测性，收敛性质也更优良。优化方法 */25 2、Newton’s method 推导