理解梯度下降法.PDF

下载文档 降价啦

166
0
约1.93万字
约 10页
2019-01-27 发布于天津
举报
版权申诉
保障服务

理解梯度下降法.PDF

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

理解梯度下降法.PDF

本文由SIGAI人工智能平台原创，未经允许，不得转载理解梯度下降法导言最优化问题在机器学习中有非常重要的地位，很多机器学习算法最后都归结为求解最优化问题。在各种最优化算法中，梯度下降法是最简单、最常见的一种，在深度学习的训练中被广为使用。在本文中，SIGAI 将为大家系统的讲述梯度下降法的原理和实现细节问题。最优化问题最优化问题是求解函数极值的问题，包括极大值和极小值。相信所有的读者对这个问题都不陌生，在初中时我们就学会了求解二次函数的极值（抛物线的顶点），高中时学习了幂函数，指数函数，对数函数，三角函数，反三角函数等各种类型的函数，求函数极值的题更是频频出现。这些方法都采用了各种各样的技巧，没有一个统一的方案。真正的飞跃发生在大学时，微积分为我们求函数的极值提供了一个统一的思路：找函数的导数等于 0 的点，因为在极值点处，导数必定为 0。这样，只要函数的可导的，我们就可本文由SIGAI人工智能平台原创，未经允许，不得转载以用这个万能的方法解决问题，幸运的是，在实际应用中我们遇到的函数基本上都是可导的。在机器学习之类的实际应用中，我们一般将最优化问题统一表述为求解函数的极小值问题，即： min f x x ( ) 其中 x 称为优化变量，f 称为目标函数。极大值问题可以转换成极小值问题来求解，只需要将目标函数加上负号即可： max f x ⇔ min −f x x ( ) x ( ) 有些时候会对优化变量 x 有约束，包括等式约束和不等式约束，它们定义了优化变量的可行域，即满足约束条件的点构成的集合。在这里我们先不考虑带约束条件的问题。一个优化问题的全局极小值 ∗ x 是指对于可行域里所有的 x ，有： ∗ f (x ) ≤ f (x ) ∗ 即全局极小值点处的函数值不大于任意一点处的函数值。局部极小值 x 定义为存在一个δ 邻域，对于在邻域内： x − x∗ ≤ δ 并且在可行域内的所有 x ，有： f (x∗ ) ≤ f (x ) 即局部极小值点处的函数值比一个局部返回内所有点的函数值都小。在这里，我们的目标是找到全局极小值。不幸的是，有些函数可能有多个局部极小值点，因此即使找到了导数等于0 的所有点，还需要比较这些点处的函数值。导数与梯度由于实际应用中一般都是多元函数，因此我们跳过一元函数，直接介绍多元函数的情况。梯度是导数对多元函数的推广，它是多元函数对各个自变量偏导数形成的向量。多元函数的梯度定义为：  ∂f ∂f  T