网站大量收购独家精品文档,联系QQ:2885784924

机器学习——批量梯度下降法、随机梯度下降法、小批量梯度下降法.pdfVIP

机器学习——批量梯度下降法、随机梯度下降法、小批量梯度下降法.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机机器器学学习习——批批量量梯梯度度下下降降法法、、随随机机梯梯度度下下降降法法、、⼩⼩批批量量梯梯度度下下降降法法

1批批量量梯梯度度下下降降

在经典的随机梯度下降算法(批量梯度下降)中,迭代下降公式是

x=x−α∇fx

t+1t(t)

以⼀线性回归的⽬标函数为例

n

i=1(ax+b−yii)2

其梯度表达为

nn

∂g∂g∑∑

∂a∂bi=1i=1

,=2xax+b−y,2ax+b−y

()(i(ii)(ii))

可以看到,这⾥的梯度计算,使⽤了所有的样本数据。倘若数据集有1000组数据,那就需要计算1000次才可以得到梯度,倘若

数据集有⼀亿组数据,就需要计算⼀亿次,其时间复杂度是O(n)。当样本数据较多时,对于模型的求解,学习⼀次的过程是很浪费时间

的。

举例:使⽤只含有⼀个特征的线性回归来展开。

线性回归的假设函数为:

(i)(i)

h(x)=θx+θ

θ10

其中i=1,2,...,n,其中n表⽰样本数。

对应的⽬标函数(代价函数)即为:

n

1

2ni=1(i)(i)2

J(θ,θ)=(h(x)−y)

01θ

批量梯度下降法是指在每⼀次迭代时使⽤所有样本来进⾏梯度的更新。

步骤如下:

(1)对⽬标函数求偏导

ΔJ(θ,θ)n

011

Δθjni=1(i)(i)(i)

=(h(x)−y)x

θj

其中i=1,2,...,n,n表⽰样本数,j=0,1表⽰特征数,这⾥使⽤了偏置项x(i)=1

0

(2)每次迭代对参数进⾏更新:

n

1

ni=1(i)(i)(i)

θ:=θ−α(h(x)−y)x

jjθj

注意:这⾥更新时存在⼀个求和函数,即为对所有样本进⾏计算处理,可与下⽂SGD法进⾏⽐较。

优点:

  (1)⼀次迭代是对所有样本进⾏计算,此时利⽤矩阵进⾏操作,实现了并⾏。

  (2)由全数据集确定的⽅向能够更好地代表样本总体,从⽽更准确地朝向极值所在的⽅向。当⽬标函数为凸函数时,BGD⼀定能够得

到全局最优。

  缺点:

  (1)当样本数⽬n很⼤时,每迭代⼀步都需要对所有样本计算,训练过程会很慢。

  从迭代的次数上来看,BGD迭代的次

文档评论(0)

131****2653 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档