神经网络_配套_Ch_pres-公开课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基本的优化算法 最速下降法 例子 图 稳定的学习速度(二次函数) 例子 沿直线最小化 例子 图 牛顿法 例子 图 非二次函数例子 不同的初始情况 牛顿法的特点 牛顿法是在当前初始点确定原函数F(x)的二次近似的驻点,它并不区别极小点、极大点和鞍点 如果原函数为二次函数(有强极小点),牛顿法能够实现一步极小化 如果原函数不是二次函数,则牛顿法一般不能在一步内收敛,甚至有可能收敛到鞍点和发散(最速下降法能够确保收敛,如果学习速度不太快) 共扼向量 对于二次函数 构造共扼方向 共扼梯度算法 第一次搜索方向是梯度的负方向。 选择学习速度来沿直线最小化。 用下式确定下一个搜索方向: 如果算法不收敛,回到第二步。 一个有 n 个参数的二次函数将在 n 步内被极小化。 例子 例子 图 9 * 性能优化 pk – 搜索方向 ak – 学习速度 or 优化的目标是求出使性能指数F(x)最小化的x的值。 这里讨论迭代算法,设初始值为x0,然后按下式迭代: 选择下一次迭代使得性能指数函数减小: 对x小的变化F(x)可近似表示为(在xk的一阶Taylor级数展开): 这里gk是在xk的梯度: 要使F(xk+1) F(xk),则Taylor展式的第二项必须为负,即: 满足上式的任意向量称为一个下降方向。最速下降方向在哪里? 当方向向量与梯度反向时,该内积为负,而绝对值最大(设长度 不变,只改变方向)。所以最速下降方向的向量为: 稳定性由这个矩 阵的特征值决定. 即(1 – αli)是[I - aA]的特征值。所以最速下降法稳定条件为: 若二次函数有一个强极小点,则其特征值为正,上式可化为: 如果矩阵[I - aA]的特征值小于1,则该系统就是稳定的。设li是A的特征值, zi是A的特征向量。那么 选择 ak 最小化 其中 对二次函数,令该导数为0,可得 ak 的解析表示: 后继每一步都正交. F x ( ) ? T x x k 1 + = p k g k 1 + T p k = = 求这个二阶近似式的梯度并设它为零来得到驻点: 驻点: F(x) F2(x) F(x) F2(x) 对于一个正定的Hessian矩阵A, 称向量集合     是两两共扼的如果下式成立: 矩阵A的特征向量组成一个共扼向量集合. (对称矩阵的特征向量是正交的.) 已经证明,如果存在沿一个共扼方向集      的准确线性搜索序列,就能在最多n次搜索内实现具有n个参数的二次函数的准确最小化。问题是如何构造这些共扼搜索方向而毋须先求Hessian矩阵?即找到一种不需要计算二阶导数的方法。 在第k +1次迭代梯度的变化是 其中 共扼条件可重写成: 这不需要Hessian矩阵了。 选择初始的搜索方向为梯度的反方向。 构造后继的搜索方向为共扼方向,即使后继向量 pk 与 {Δg0, Δg1, …, Δgk-1}正交。类似Gram-Schmidt正交化过程(第五章介绍),可有如下简化的迭代式: 其中 or or (用于二次函数) 共扼梯度 最速下降 9 *

文档评论(0)

老刘忙 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档