八无约束最优化的梯度方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
八无约束最优化的梯度方法

第十八章 无约束最优化的梯度方法 ,目的是在找一点称为此无约束最优化问题的全局最优点。然而在实际中,大多数最优化方法只能求到局部最优点,即在中可找到一点使得在的某个邻域中有。但在实际中,可以根据问题的意义来判断求得的局部极小点是否为全局最优点,无约束最优化可以分为两大类: 一类是使用导数的方法,也就是根据目标函数的梯度(一阶导数)有时还要根据hesse矩阵(即二阶导数)所提供的信息而构造出来的方法,称为梯度方法。如:最速下降法,Newton法,共轭梯度法和变尺度法。 另一类是不使用导数的方法,统称为直接方法。前者收敛速度快,但计算复杂(一阶,二阶导数)后者不用导数,适应性强,但收敛速度慢。因此在可以求得目标函数导数信息时,尽可能用前一方法,而若求目标函数导数很困难,或者根本不存在导数时,就用后一种方法。 18.1 最速下降法 最速下降法是求多元函数极值的最古老的数值算法,它直观,简单,计算方便,而且后来的一些新的有效的方法大多数是对它的改进,或受它的启发而得到的。其缺点是收敛速度较慢。 18.1.1 算法思路 假定我们已经迭代到第 K次,即已有,从出发进一步迭代。 (图18.1.1 ) 显然应沿下降方向进行,而下降最快的方向是,为使目标函数沿此方向下降的最多,沿此方向进行直线搜索,从而得到第k+1次迭代点,即。其中步长因子满足。 按我们以前的记号,上面两式可记为: (18.1.1) 当给定初始点(可任选),就可产生一个序列。在满足一定条件时,此序列必收敛于的极小点。 称以(18.1.1)为迭代公式的算法为最速下降法。 以后为方便,记: 18.1.2 算法过程 已知目标函数及其梯度,给定终止准则H及终止限 1)选定初始点,计算 2)做直线搜索 3)判定终止准则H是否满足,若满足则打印最优解,终止。否则转2)。 将最速下降法用于具有对称正定矩阵Q的二次函数: 而此处即为:,其中 即:,从而: 因此: 18.1.3 锯齿现象 最速下降法在两个相邻点之间的搜索方向对于正定二次函数是正交的,因而最速下降法向最小点逼近是曲折前进的。这种现象称为锯齿现象。 除最特殊的目标函数和极特殊的初始点外,这种现象都会发生。这是因为最速下降法的下一步搜索方向是 , 从而知: 。 图18.1.2 这说明其前后两个搜索方向总是垂直的,这就造成了最优步长的最速下降法逼近极小点过程是“之”字形,并且越靠近极小点步长越小,移动越慢,以至在实际运用中在可行的计算时间内得不到需要的结果。 这似乎与“最速下降”的名称矛盾。其实不然,因为梯度是函数局部性质,从局部看,函数在这一点附近下降的很快,然而从整体看,则走过了许多弯路。因此反而是不好的。 为了清除最优步长最速下降法中两个搜索方向正交的不良后果,人们发明了不少方法,如: (1)选择不同初始点。 例如:对问题: 取初点, 为求,沿方向从出发求的极点,即在线搜索 代入函数式, 则解得 , 然后再从开始迭代,经过10次迭代,近似得最优解计算中可以发现,开始几次迭代,步长比较大,函数值下将降较快但当接近最优点时,步长很小,目标函数值下降很慢。如果不取初点为而取虽然后一初点较前一初点离最优点远,但迭代中不含上面出现的锯齿现象。这时: 一步就得到了极小点。 可见:造成距齿现象与初始点的选择有关,但怎样选一个初始点也是一件困难的事。 (2)采用不精确的一维搜索。 用一维搜索求出的步长为时,我们不取,而用的一个近似值作为 如取=0.9。 这样可使相邻两个迭代点处的梯度不正交,从而改变收敛性。 对于最速下降法,有时为了减少计算工作量,不采用直线搜索确定步长,而采用固定步长λ的方法,称为固定步长最速下降法。 只要λ充分小,总有:但λ到底取多大,没有统一的标准, λ取小了,收敛太慢,而λ取大了,又会漏掉极小点。 18.1.4 用于二次函数时的收敛速度 定理18.1.1 对于二次函数Q为对称正定,分别为其最小最大特征值,从任意初点出发,对此二次函数,用最速下降法产生的序列,对于有: 并且 由于 而的极小点恰好是。故最速下降法对于二次函数关于任意初点均收敛,而且是线性收敛的。 下面说明最速下降法收敛 性的几何意义。考虑具有对称正定矩阵 ,其中 这个函数的等值线为, c>0改写为: 这是以和为半轴的橢圆。 图18.1.3 图18.1.4 从下面的分析可见,两个特征值的相对大小决定最速下降法的收敛性。 当时,等值线变为圆。此时 既只需迭代一步就到了极小点,这表明最速下降法用于等值线为圆的目标函数时,

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档