网站大量收购闲置独家精品文档,联系QQ:2885784924

机器学习中常见的几种优化方法 .pdfVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习中常见的几种优化方法

阅读目录

1.梯度下降法(GradientDescent)牛顿法和拟牛顿法

(Newtonsmethodamp;

2.

Quasi-NewtonMethods)

3.共轭梯度法(ConjugateGradient)

4.启发式优化方法

5.解决约束优化问题——拉格朗日乘数法

我们每个人都会在我们的生活或者工作中遇到各种各

样的最优化问题,比如每个企业和个人都要考虑的一个问题

在一定成本下,如何使利润最大化”等。最优化方法是一种

数学方法,它是研究在给定约束之下如何寻求某些因素的

)()

量,以使某一或某些指标达到最优的一些学科的总称。随

着学习的深入,博主越来越发现最优化方法的重要性,学习和工作中

遇到的大多问题都可以建模成一种最优化模型进行求解,比如我们现

在学习的机器学习算法,大部分的机器学习算法的本质都是建立优化

模型,通过最优化方法对目标

函数(或损失函数)进行优化,从而训练出最好的模型。常

见的最优化方法有梯度下降法、牛顿法和拟牛顿法、共轭梯

度法等等。

回到顶部

1.梯度下降法(GradientDescent)

梯度下降法是最早最简单,也是最为常用的最优化方法。

梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全

局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也

未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为

搜索方向,因为该方向为当前位

置的最快下降方向,所以也被称为是”最速下降法“。最速下索迭代

示意图如下图所示:

降法越接近目标值,步长越小,前进越慢。梯度下降法的搜

牛顿法的缺点:

1)靠近极小值时收敛速度减慢,如下图所示;

2)直线搜索时可能会产生一些问题;3)可能会“之字形”

地下降。

从上图可以看出,梯度下降法在接近最优解的区域收敛

速度明显变慢,利用梯度下降法求解需要很多次的迭代。

在机器学习中,基于基本的梯度下降法发展了两种梯度

降方法,分别为随机梯度下降法和批量梯度下降法。

比如对一个线性回归(LinearLogistics)模型,假设下

面的h(x)是要拟合的函数,J(theta)为损失函数,theta是参

数,要迭代求解的值,theta求解出来了那最终要拟合的函征的个

数。

数h(theta)就出来了。其中m是训练集的样本个数,n是特

1)批量梯度下降法(BatchGradientDescent,BGD)

1)将J(theta)对theta求偏导,得到每个theta对应

的的梯度:

2)由于是要最小化风险函数,所以按每个参数theta

的梯度负方向,来更新每个theta:

3)从上面公式可以注意到,它得到的是一个全局最

优解,但是每迭代一步,都要用到训练集所有的数据,如果

m很大,那么可想而知这种方法的迭代速度会相当的慢。所以,这就

引入了另外一种方法——随机梯度下降。

mxn

对于批量梯度下降法,样本个数,为维向量,

次迭代需要把m个样本全部带入计算,迭代一次计算量为

m*n2。

2)随机梯度下降(RandomGradientDescent,RGD)

1)上面的风险函数可以写成如下这种形式,损失函

数对应的是训练集中每个样本的粒度,而上面批量梯度下降对应的是

所有的训练样本:

文档评论(0)

1367076134 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档