凸优化和机器学习.docVIP

下载本文档

10
0
约2.98千字
约 8页
2021-11-23 发布于天津
举报
版权申诉

凸优化和机器学习.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

凸优化和机器学习 CSDN 的博主 poson 在他的博文《机器学习的最优化问题》中指出“机器学习中的大多数问题可以归结为最优化问题”。我对机器学习的各种方法了解得不够全面，本文试图从凸优化的角度说起，简单介绍其基本理论和在机器学习算法中的应用。动机和目的人在面临选择的时候重视希望自己能够做出“最好”的选择，如果把它抽象成一个数学问题，那么“最好的选择” 就是这个问题的最优解。优化问题，就是把你考虑的各个因素表示成为一组函数（代价函数），解决这个问题就是在一集备选解中选择最好的解。那么，为什么我们要讨论凸优化而不是一般的优化问题呢？那时因为凸优化问题具有很好的性质 ——局部最优就是全局最优，这一特性让我们能够迅速有效的求解问题。（实际上就是太一般的优化问题讨论不来）凸优化的定义首先明确两个定义 : (1) 如果中任意两点之间的线段任在中，那么集合被称为凸集。即对任意和满足的都有 (2) 函数是凸函数，则是凸集，且对于任意在任下有 Stephen Boyd 在他的《 convex optimization 》中定义凸优化问题是形如的问题，其中为凸函数。也就是说，凸优化问题是指需要最小化的函数（代价函数）是凸函数，而且定义域为凸集的问题。凸优化问题的一般求解方法有些凸优化问题比较简单，是可以直接求解的，譬如二次规划，这里不做说明。求解凸优化问题，就要利用该问题的“凸”性——只要我一直朝着代价函数减小的方向去，那么我一定不会走错！这就是下降方法的基本思想。《convex optimization 优化分别介绍了其算法，》这本书中，将凸优化问题分为无约束优化、等式约束优化和不等式约束然其本质并无区别。下降方法即产生一优化点列其中并且。此处表示迭代的步长（比例因子），下降方法指只要不是最优点，的《 convex optimization 》及其中文译本。搜索步径一旦确定了搜索方向，那么我们可以通过求解表示的是搜索方向（搜索步径）。成立。以下内容均来自 Stephen Boyd 得到搜索步径，当求解该问题成本较低时，可以采用该方法。该方法称为精确直线搜索。然而实践中一般采用非精确直线搜索方法，譬如回溯直线搜索。算法如下图：下降方向在各个领域都广为应用的 LMS 算法也称为随机梯度算法（ LMS 算法和这里算法的区别和联系应该会另写一篇）。用负梯度作为下降的方向是一种和自然的选择，此外还有 Newton 方法。而最速下降方法是定义出的在某一特定范数下的方法。梯度下降和 Netwon 方法分别是二次范数和 Hessian 范数下的最速下降方法。算法的收敛性和 Hessian 矩阵有关，此处不详细说明。等式约束对于标准的凸优化问题，等式约束是仿射的，这也就意味着该优化问题的定义域是一个向量子空间。一个自然的想法是在这个空间内进行下降，这种想法被证明是可行的。根据初始迭代点的兴致，可以分为两类。初始点可行：在可行域内迭代初始点不可行：迭代过程中逐步靠近可行域不等式约束如果我们不能解决一个问题，那么就消除这个问题。采用示性函数可以将不等式约束隐含在代价函数中，这里带来的问题是——代价函数非凸。障碍方法被引入以解决这个问题。（内点法）这样，不等式约束就变成了等式约束或是无约束的情况了。如果，我不知道该怎么选择搜索方向？既然真的不知道，那就找一套合适的规则，避开选择方向这个问题吧！ ——坐标下降法坐标下降法如下所示（可参考维基百科）坐标下降方法是一种下降方法，但是和梯度下降不同，坐标下降法采用一维搜索，也就是说在每次迭代过程中，下降方向都是平行与坐标轴的。由于下降方向是确定的，因此坐标下降方法并不涉及到寻找搜索方向这一过程。迭代过程图如下所示： 4.KKT 条件面临一个凸优化问题，直接采用下降方法是一个不明智的选择——很有可能你还在迭代，别人已经把结果求出来了。或者，别人把原问题转换成为一个更容易求得的问题。 KKT 条件是最优点需要满足的条件 ,如下所示前两个条件是约束给出的，后三个条件涉及到（拉格朗日）对偶函数。对偶函数定义了最优值得下界。定义对偶问题的最优解为，原问题的最优解为，如果，则强对偶性成立。这个时候对偶函数才起到了左右。（要不然求个下界没什么用处）当凸优化问题满足 Slater 条件时，强对偶性是成立的。由此可以导出 KKT 条件的后三个式子——不等式约束 Lagrange 乘子大于等于 0 ，强对偶性成立，对偶函数梯度为 0。机器学习算法举例支持向量机（ SVM ）对于线性可分的两类而言， SVM 的目的是找出最优的分