- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
理解梯度下降法.PDF
本文由SIGAI人工智能平台原创,未经允许,不得转载
理解梯度下降法
导言
最优化问题在机器学习中有非常重要的地位,很多机器学习算法最后都归结为求解最优化
问题。在各种最优化算法中,梯度下降法是最简单、最常见的一种,在深度学习的训练中被广
为使用。在本文中,SIGAI 将为大家系统的讲述梯度下降法的原理和实现细节问题。
最优化问题
最优化问题是求解函数极值的问题,包括极大值和极小值。相信所有的读者对这个问题都不陌
生,在初中时我们就学会了求解二次函数的极值(抛物线的顶点),高中时学习了幂函数,指
数函数,对数函数,三角函数,反三角函数等各种类型的函数,求函数极值的题更是频频出现。
这些方法都采用了各种各样的技巧,没有一个统一的方案。
真正的飞跃发生在大学时,微积分为我们求函数的极值提供了一个统一的思路:找函数的导数
等于 0 的点,因为在极值点处,导数必定为 0。这样,只要函数的可导的,我们就可
本文由SIGAI人工智能平台原创,未经允许,不得转载
以用这个万能的方法解决问题,幸运的是,在实际应用中我们遇到的函数基本上都是可导的。
在机器学习之类的实际应用中,我们一般将最优化问题统一表述为求解函数的极小值问
题,即:
min f x
x ( )
其中 x 称为优化变量,f 称为目标函数。极大值问题可以转换成极小值问题来求解,只
需要将目标函数加上负号即可:
max f x ⇔ min −f x
x ( ) x ( )
有些时候会对优化变量 x 有约束,包括等式约束和不等式约束,它们定义了优化变量的可
行域,即满足约束条件的点构成的集合。在这里我们先不考虑带约束条件的问题。
一个优化问题的全局极小值 ∗
x 是指对于可行域里所有的 x ,有:
∗
f (x ) ≤ f (x )
∗
即全局极小值点处的函数值不大于任意一点处的函数值。局部极小值 x 定义为存在一
个δ 邻域,对于在邻域内:
x − x∗ ≤ δ
并且在可行域内的所有 x ,有:
f (x∗ ) ≤ f (x )
即局部极小值点处的函数值比一个局部返回内所有点的函数值都小。在这里,我们的目
标是找到全局极小值。不幸的是,有些函数可能有多个局部极小值点,因此即使找到了导数等
于0 的所有点,还需要比较这些点处的函数值。
导数与梯度
由于实际应用中一般都是多元函数,因此我们跳过一元函数,直接介绍多元函数的情况。梯
度是导数对多元函数的推广,它是多元函数对各个自变量偏导数形成的向量。多元函数的梯度定
义为:
∂f ∂f T
文档评论(0)