svm通俗讲解..doc

下载文档 降价啦

8
0
约2.28万字
约 49页
2016-12-31 发布于重庆
举报
版权申诉
保障服务

svm通俗讲解..doc

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

支持向量机通俗导论（理解SVM的三层境界）作者：July ；致谢：pluskid、白石、JerryLead。出处：结构之法算法之道blog。 ? ? 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的，原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有朋友写得不错了(见文末参考链接)，但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明，我还是想尝试写一下，希望本文在兼顾通俗易懂的基础上，真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。 ? ? 本文在写的过程中，参考了不少资料，包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等，于此，还是一篇学习笔记，只是加入了自己的理解和总结，有任何不妥之处，还望海涵。全文宏观上整体认识支持向量机的概念和用处，微观上深究部分定理的来龙去脉，证明及原理细节，力保逻辑清晰通俗易懂。 ? ? 同时，阅读本文时建议大家尽量使用chrome等浏览器，如此公式才能更好的显示，再者，阅读时可拿张纸和笔出来，把本文所有定理.公式都亲自推导一遍或者直接打印下来（可直接打印网页版或本文文末附的PDF，享受随时随地思考、演算的极致快感），在文稿上演算。 ? ? Ok，还是那句原话，有任何问题，欢迎任何人随时不吝指正赐教，感谢。 ? ? 支持向量机，因其英文名为support?vector?machineSVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。 1.1、分类标准的起源：Logistic回归 ? ? 理解SVM ? ? 给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x数据点，用y类别（y可以取1-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n超平面（hyper?plane），这个超平面的方程可以表示为（?wT中的T）： ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??可能有读者对类别取1-1有疑问，事实上，这个1或-1的分类标准起源于logistic回归。 ? ??Logistic0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。 ? ? 假设函数 ? ? 其中x是n维特征向量，函数g就是logistic函数。 ? ? 而的图像是 ? ? 可以看到，将无穷映射到了(0,1)。 ? ? 而假设函数就是特征属于y=1的概率。 ? ? 从而，当我们要判别一个新来的特征属于哪个类时，只需求即可，若大于0.5y=1的类，反之属于y=0类。 ? ? 此外，只和有关，0，而g(z)是在于。再者，当=1，反之=0。如果我们只从出发，希望模型达到的目标就是让训练数据中y=1，而是y=0的特征。Logistic回归就是要学习得到，使得正例的特征远大于00，而且要在全部训练实例上达到这个目标。 ? ? 接下来，尝试把logistic做个变形。首先，将使用的结果标签y?=?0y?=?1替换为y?=?-1,y?=?1，然后将（）中的替换为b，最后将后面的替换为（即）。如此，则有了。也就是说除了yy=0变为y=-1外，线性分类函数跟logistic没区别。 ? ? 进一步，可以将假设函数中的g(z)y=-1和y=1上。映射关系如下： ? ? 下面举个简单的例子，如下图一个二维平面，平面上有两种不同的数据，分别用圈和叉表示。由于这些数据是线性可分的，所以可以用一条直线将这两类数据分开，这条直线就相当于一个超平面，超平面一边的数据点所对应的y-1?，另一边所对应的y全是1。 ? ? 这个超平面可以用分类函数表示，当f(x)?等于0x便是位于超平面上的点，而f(x)大于0的点对应?y=1?，f(x)0的点对应y=-1的点，如下图所示： ? ??注：有的资料上定义特征到结果的输出函数，与这里定义的实质是一样的。为什么？因为无论是，还是，不影响最终优化结果。下文你将看到，当我们转化到优化的时候，为了求解方便，会把yf(x)令为1，即yf(x)是y(w^x + b)，还是y(w^x - b)，对我们要优化的式子max1/||w||已无影响。 ?? ?（有一朋友飞狗来自Mare_Desiderii，看了上面的定义之后，问道：请教一下SVM function