神经网络_配套_Ch_pres-公开课件.pptVIP

下载本文档

4
0
约1.28千字
约 23页
2019-05-26 发布于广西
举报
版权申诉

神经网络_配套_Ch_pres-公开课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基本的优化算法最速下降法例子图稳定的学习速度(二次函数) 例子沿直线最小化例子图牛顿法例子图非二次函数例子不同的初始情况牛顿法的特点牛顿法是在当前初始点确定原函数F(x)的二次近似的驻点，它并不区别极小点、极大点和鞍点如果原函数为二次函数（有强极小点），牛顿法能够实现一步极小化如果原函数不是二次函数，则牛顿法一般不能在一步内收敛，甚至有可能收敛到鞍点和发散（最速下降法能够确保收敛，如果学习速度不太快）共扼向量对于二次函数构造共扼方向共扼梯度算法第一次搜索方向是梯度的负方向。选择学习速度来沿直线最小化。用下式确定下一个搜索方向：如果算法不收敛，回到第二步。一个有 n 个参数的二次函数将在 n 步内被极小化。例子例子图 9 * 性能优化 pk – 搜索方向 ak – 学习速度 or 优化的目标是求出使性能指数Ｆ(x)最小化的x的值。这里讨论迭代算法，设初始值为x0，然后按下式迭代：选择下一次迭代使得性能指数函数减小：对x小的变化F(x)可近似表示为（在xk的一阶Taylor级数展开）：这里gk是在xk的梯度：要使F(xk+1) F(xk)，则Taylor展式的第二项必须为负，即：满足上式的任意向量称为一个下降方向。最速下降方向在哪里？当方向向量与梯度反向时，该内积为负，而绝对值最大(设长度不变，只改变方向)。所以最速下降方向的向量为：稳定性由这个矩阵的特征值决定. 即(1 – αli)是[I - aA]的特征值。所以最速下降法稳定条件为：若二次函数有一个强极小点，则其特征值为正，上式可化为：如果矩阵[I - aA]的特征值小于1，则该系统就是稳定的。设li是A的特征值， zi是A的特征向量。那么选择 ak 最小化其中对二次函数，令该导数为0，可得 ak 的解析表示：后继每一步都正交. F x ( ) ? T x x k 1 + = p k g k 1 + T p k = = 求这个二阶近似式的梯度并设它为零来得到驻点：驻点: F(x) F2(x) F(x) F2(x) 对于一个正定的Hessian矩阵A, 称向量集合　　　　是两两共扼的如果下式成立: 矩阵A的特征向量组成一个共扼向量集合. (对称矩阵的特征向量是正交的.) 已经证明，如果存在沿一个共扼方向集　　　　　　的准确线性搜索序列，就能在最多n次搜索内实现具有n个参数的二次函数的准确最小化。问题是如何构造这些共扼搜索方向而毋须先求Hessian矩阵？即找到一种不需要计算二阶导数的方法。在第k +1次迭代梯度的变化是其中共扼条件可重写成：这不需要Hessian矩阵了。选择初始的搜索方向为梯度的反方向。构造后继的搜索方向为共扼方向，即使后继向量 pk 与 {Δg0, Δg1, …, Δgk-1}正交。类似Gram-Schmidt正交化过程（第五章介绍），可有如下简化的迭代式：其中 or or (用于二次函数) 共扼梯度最速下降 9 *