凸优化和机器学习.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
凸优化和机器学习 CSDN 的博主 poson 在他的博文 《机器学习的最优化问题》 中指出“机器学习中的大多数问题可以 归结为最优化问题”。我对机器学习的各种方法了解得不够全面,本文试图从凸优化的角度说起,简 单介绍其基本理论和在机器学习算法中的应用。 动机和目的 人在面临选择的时候重视希望自己能够做出“最好”的选择,如果把它抽象成一个数学问题,那 么“最好的选择” 就是这个问题的最优解。 优化问题,就是把你考虑的各个因素表示成为一组函数 (代 价函数),解决这个问题就是在一集备选解中选择最好的解。 那么,为什么我们要讨论凸优化而不是一般的优化问题呢?那时因为凸优化问题具有很好的性质 ——局部最优就是全局最优, 这一特性让我们能够迅速有效的求解问题。 (实际上就是太一般的优化 问题讨论不来) 凸优化的定义 首先明确两个定义 : (1) 如果 中任意两点之间的线段任在 中,那么集合 被称为 凸集。即对任意 和 满足 的 都有 (2) 函数 是凸函数,则 是凸集,且对于任意 在任 下有 Stephen Boyd 在他的《 convex optimization 》中定义凸优化问题是形如 的问题,其中 为凸函数。也就是说,凸优化问题是指需要最小化的函数(代价函数) 是凸函数,而且定义域为凸集的问题。 凸优化问题的一般求解方法 有些凸优化问题比较简单, 是可以直接求解的, 譬如二次规划, 这里不做说明。 求解凸优化问题, 就要利用该问题的“凸”性——只要我一直朝着代价函数减小的方向去,那么我一定不会走错!这就 是下降方法的基本思想。 《convex optimization 优化分别介绍了其算法,  》这本书中,将凸优化问题分为无约束优化、等式约束优化和不等式约束然其本质并无区别。 下降方法即产生一优化点列  其中 并且 。此处 表示迭代的步长(比例因子), 下降方法指只要 不是最优点, 的《 convex optimization 》及其中文译本。 搜索步径 一旦确定了搜索方向,那么我们可以通过求解  表示的是搜索方向(搜索步径)。 成立。 以下内容均来自 Stephen Boyd 得到搜索步径, 当求解该问题成本较低时,可以采用该方法。该方法称为精确直线搜索。 然而实践中一般采用非精确直线搜索方法,譬如回溯直线搜索。算法如下图: 下降方向 在各个领域都广为应用的 LMS 算法也称为随机梯度算法( LMS 算法和这里算法的区别和联系应该 会另写一篇)。用负梯度作为下降的方向是一种和自然的选择,此外还有 Newton 方法。而最速下 降方法是定义出的在某一特定范数下的方法。梯度下降和 Netwon 方法分别是二次范数和 Hessian 范数下的最速下降方法。算法的收敛性和 Hessian 矩阵有关,此处不详细说明。 等式约束 对于标准的凸优化问题,等式约束是仿射的,这也就意味着该优化问题的定义域是一个向量子空 间。一个自然的想法是在这个空间内进行下降,这种想法被证明是可行的。根据初始迭代点的兴致, 可以分为两类。 初始点可行:在可行域内迭代 初始点不可行:迭代过程中逐步靠近可行域 不等式约束 如果我们不能解决一个问题,那么就消除这个问题。 采用示性函数可以将不等式约束隐含在代价函数中,这里带来的问题是——代价函数非凸。障碍 方法被引入以解决这个问题。(内点法)这样,不等式约束就变成了等式约束或是无约束的情况了。 如果,我不知道该怎么选择搜索方向? 既然真的不知道,那就找一套合适的规则,避开选择方向这个问题吧! ——坐标下降法 坐标下降法如下所示(可参考 维基百科 ) 坐标下降方法是一种下降方法,但是和梯度下降不同,坐标下降法采用一维搜索,也就是说在每 次迭代过程中,下降方向都是平行与坐标轴的。由于下降方向是确定的,因此坐标下降方法并不涉及 到寻找搜索方向这一过程。迭代过程图如下所示: 4.KKT 条件 面临一个凸优化问题,直接采用下降方法是一个不明智的选择——很有可能你还在迭代,别人已 经把结果求出来了。 或者,别人把原问题转换成为一个更容易求得的问题。 KKT 条件是最优点需要满 足的条件 ,如下所示 前两个条件是约束给出的,后三个条件涉及到(拉格朗日)对偶函数。对偶函数定义了最优值得 下界。 定义对偶问题的最优解为 ,原问题的最优解为 ,如果 ,则强对偶性成立。这个时候对 偶函数才起到了左右。(要不然求个下界没什么用处)当凸优化问题满足 Slater 条件时,强对偶性 是成立的。 由此可以导出 KKT 条件的后三个式子——不等式约束 Lagrange 乘子大于等于 0 ,强对偶性成立, 对偶函数梯度为 0。 机器学习算法举例 支持向量机( SVM ) 对于线性可分的两类而言, SVM 的目的是找出最优的分

文档评论(0)

fkh4608 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档