网站大量收购独家精品文档,联系QQ:2885784924

理解梯度下降法.PDF

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
理解梯度下降法.PDF

本文由SIGAI人工智能平台原创,未经允许,不得转载 理解梯度下降法 导言 最优化问题在机器学习中有非常重要的地位,很多机器学习算法最后都归结为求解最优化 问题。在各种最优化算法中,梯度下降法是最简单、最常见的一种,在深度学习的训练中被广 为使用。在本文中,SIGAI 将为大家系统的讲述梯度下降法的原理和实现细节问题。 最优化问题 最优化问题是求解函数极值的问题,包括极大值和极小值。相信所有的读者对这个问题都不陌 生,在初中时我们就学会了求解二次函数的极值(抛物线的顶点),高中时学习了幂函数,指 数函数,对数函数,三角函数,反三角函数等各种类型的函数,求函数极值的题更是频频出现。 这些方法都采用了各种各样的技巧,没有一个统一的方案。 真正的飞跃发生在大学时,微积分为我们求函数的极值提供了一个统一的思路:找函数的导数 等于 0 的点,因为在极值点处,导数必定为 0。这样,只要函数的可导的,我们就可 本文由SIGAI人工智能平台原创,未经允许,不得转载 以用这个万能的方法解决问题,幸运的是,在实际应用中我们遇到的函数基本上都是可导的。 在机器学习之类的实际应用中,我们一般将最优化问题统一表述为求解函数的极小值问 题,即: min f x x ( ) 其中 x 称为优化变量,f 称为目标函数。极大值问题可以转换成极小值问题来求解,只 需要将目标函数加上负号即可: max f x ⇔ min −f x x ( ) x ( ) 有些时候会对优化变量 x 有约束,包括等式约束和不等式约束,它们定义了优化变量的可 行域,即满足约束条件的点构成的集合。在这里我们先不考虑带约束条件的问题。 一个优化问题的全局极小值 ∗ x 是指对于可行域里所有的 x ,有: ∗ f (x ) ≤ f (x ) ∗ 即全局极小值点处的函数值不大于任意一点处的函数值。局部极小值 x 定义为存在一 个δ 邻域,对于在邻域内: x − x∗ ≤ δ 并且在可行域内的所有 x ,有: f (x∗ ) ≤ f (x ) 即局部极小值点处的函数值比一个局部返回内所有点的函数值都小。在这里,我们的目 标是找到全局极小值。不幸的是,有些函数可能有多个局部极小值点,因此即使找到了导数等 于0 的所有点,还需要比较这些点处的函数值。 导数与梯度 由于实际应用中一般都是多元函数,因此我们跳过一元函数,直接介绍多元函数的情况。梯 度是导数对多元函数的推广,它是多元函数对各个自变量偏导数形成的向量。多元函数的梯度定 义为:  ∂f ∂f  T

文档评论(0)

zhongshanmen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档