- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从瞎子爬山到最优化方法.PDF
从瞎子爬山到最优化方法
原创2016-02-01袁亚湘数学英才数学英才
shuxueyingcai中学生科技创新后备人才培养计划(中学生英才计划)数学学科官方公众号
,推送数学微慕课和学习资料。 点击上方 “数学英才”可以订阅哦!
看到标题,读者一定会问:瞎子爬山和最优化方法有什么关系?事实上,爬
山的目标是登上山顶,也就是要找海拔最高的点;而最优化是在一定约束条
件下寻求某个目标函数的最大值或最小值。所以爬山本身就是一个优化问题
。给定一个点,计算机可以计算目标函数在该点的信息(如函数值,梯度值
),但不知道其它点的信息。这正如一个瞎子在山坡上能感觉到脚下的坡度
(这是海拔函数在当前点的梯度值),但不知道山上的其他点的任何情况。
可见计算机的能力和瞎子是差不多的。正因为如此,我们说,用计算机求解
最优化问题和瞎子爬山有惊人的相似之处。
黄山 天都峰
把计算机的能力和瞎子对比可能已经出人意料了,但我想问一个更让大家吃
惊的问题:计算机和瞎子谁更聪明?我国已故著名数学家华罗庚先生曾把一
个简单的优化方法称之为“瞎子爬山法”,该方法就是相当于瞎子在爬山时
用明杖前后左右轮流试,能往上走就迈一步直到四面都不高了就是山顶。这
个方法本质上就是坐标轮换搜索法。现实生活中,瞎子肯定不会这样爬山的
,要见瞎子就比采用坐标轮换法的计算机聪明。我更偏向于把最速下降法称
为“瞎子爬山法”,理由是瞎子能知道山的坡度。
华罗庚 (1910-1985 )
最速下降法是利用最速下降方向求函数极小的方法,这相当于在爬山中沿着
山坡最陡的方向往前爬。在数学上,就是求解极小化问题
的迭代法:
其中α 0是步长。α 的一个直观的选取是使得目标函数f(x)尽可能的小,也就
k k
是让α =α*满足精确搜索条件:
k
这就是精确搜索下的梯度法,通常称为最速下降法。
表面上看来,最速下降法是个完美的方法。该方法所用的方向是最好的(使
函数降得最快),步长也是最好的(让函数在搜索方向上最小)。但是,最
速下降法不仅不是一个最好的方法,反倒是一个很差的方法。下图是用最速
2 2
下降法求解min f(x,y)=100x +y ,从初始点(1,100)开始迭代的前二十个迭代
点:
从上图可以看出,最速下降法收敛非常慢。也就是说,“最好”+“最好”≠“最好
”。我在中科院研究生院上课常常跟同学们开玩笑说,班上最好的男生娶班
上最好的女生,结果往往不是最好的。
1988年加拿大数学会前会长、加拿大皇家科学院院士 Borwein 教授和合作
者Barzilai提出了一个巧妙的办法来改进最速下降法。他们把上一次迭代的最
好步长留着下一次迭代用。这一小小的改动,导致新算法效率惊人地提高,
几乎可以达到和共轭梯度法差不多的效果。下图是用Barzilai-Borwein方法
2 2
求解min f(x,y)=100x +y 从初始点(1,100)开始迭代的表现:
由此图可知,BB方法只需九次迭代就得到一个非常高精度的解。BB方法的
提出使得优化专家们对梯度法不得不重新认识,并此发了大量的后续研究,
英国皇家学会会员、优化最高奖Dantzig奖获得者Roger Fletcher等著名学者也
对这个问题作了深入研究。但是,如此重要的BB方法本质上却如此简单,就
是把最好的步长延迟一步用。继续上面提到的玩笑就是,班上最好的男生应
该找低年级最好的女生。
优化方法中另外一个应用广泛的方法是共轭梯度法。该方法是是用来求解线
性方程组的,由著名数学家Cornelius Lanczos (1893-1974) ,Magnus
Hestenes (1906-1991)和Eduard Stiefel (1909-1978)等提出。
Cronelius LanczosMagnus HestenesEduard Stiefel共轭梯度法的基本思
想是把一个N维问题转化为N个一维问题。方法的关键是构造一组两两共轭
的方向。巧妙的是,共轭方向可以由上次搜索方向和当前点的梯度方向之组
合来逐步产生 :
不同的β 导致不同的非线性共轭梯度法,著名的方法有 :Hestenes-Stiefel方法
文档评论(0)