SVM入门(四)到(十一).pdf

下载文档 降价啦

78
0
约1.98万字
约 18页
2017-09-21 发布于湖北
举报
版权申诉
保障服务

SVM入门(四)到(十一).pdf

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SVM入门(四)到(十一)

SVM 入门（四）线性分类器的求解——问题的描述Part1 上节说到我们有了一个线性分类函数，也有了判断解优劣的标准——即有了优化的目标，这个目标就是最大化几何间隔，但是看过一些关于SVM 的论文的人一定记得什么优化的目标是要最小化||w||这样的说法，这是怎么回事呢？回头再看看我们对间隔和几何间隔的定义：间隔：δ=y(wx+b)=|g(x)| 几何间隔：可以看出δ=||w||δ 几何。注意到几何间隔与||w||是成反比的，因此最大化几何间隔与最小化||w||完全是一回事。而我们常用的方法并不是固定||w||的大小而寻求最大几何间隔，而是固定间隔（例如固定为1），寻找最小的||w||。而凡是求一个函数的最小值（或最大值）的问题都可以称为寻优问题（也叫作一个规划问题），又由于找最大值的问题总可以通过加一个负号变为找最小值的问题，因此我们下面讨论的时候都针对找最小值的过程来进行。一个寻优问题最重要的部分是目标函数，顾名思义，就是指寻优的目标。例如我们想寻找最小的||w||这件事，就可以用下面的式子表示：但实际上对于这个目标，我们常常使用另一个完全等价的目标函数来代替，那就是： (式 1) 2 不难看出当||w|| 达到最小时，||w||也达到最小，反之亦然（前提当然是||w||描述的是向量的长度，因而是非负的）。之所以采用这种形式，是因为后面的求解过程会对目标函数作一系列变换，而式（1）的形式会使变换后的形式更为简洁（正如聪明的读者所料，添加的系数二分之一和平方，皆是为求导数所需）。接下来我们自然会问的就是，这个式子是否就描述了我们的问题呢？（回想一下，我们的问题是有一堆点，可以被分成两类，我们要找出最好的分类面）如果直接来解这个求最小值问题，很容易看出当||w||=0 的时候就得到了目标函数的最小值。但是你也会发现，无论你给什么样的数据，都是这个解！反映在图中，就是H1 与 H2 两条直线间的距离无限大，这个时候，所有的样本点（无论正样本还是负样本）都跑到了H1 和H2 中间，而我们原本的意图是，H1 右侧的被分为正类，H2 左侧的被分为负类，位于两类中间的样本则拒绝分类（拒绝分类的另一种理解是分给哪一类都有道理，因而分给哪一类也都没有道理）。这下可好，所有样本点都进入了无法分类的灰色地带。造成这种结果的原因是在描述问题的时候只考虑了目标，而没有加入约束条件，约束条件就是在求解过程中必须满足的条件，体现在我们的问题中就是样本点必须在H1 或H2 的某一侧（或者至少在H1 和H2 上），而不能跑到两者中间。我们前文提到过把间隔固定为 1，这是指把所有样本点中间隔最小的那一点的间隔定为 1 （这也是集合的间隔的定义，有点绕嘴），也就意味着集合中的其他点间隔都不会小于 1，按照间隔的定义，满足这些条件就相当于让下面的式子总是成立： y [(w·x)+b]≥1 (i=1,2,…,l) （l 是总的样本数） i i 但我们常常习惯让式子的值和0 比较，因而经常用变换过的形式： y [(w·x)+b]-1≥0 (i=1,2,…,l) （l 是总的样本数） i i 因此我们的两类分类问题也被我们转化成了它的数学形式，一个带约束的最小值的问题：下一节我们从最一般的意义上看看一个求最小值的问题有何特征，以及如何来解。 SVM 入门（五）线性分类器的求解——问题的描述Part2 从最一般的定义上说，一个求最小值的问题就是一个优化问题（也叫寻优问题，更文绉绉的叫法是规划——Progr amming ），它同样由两部分组成，目标函数和约束条件，可以用下面的式子表示：（式1）约束条件用函数c 来表示，就是constrain 的意思啦。你可以看出一共有p+q 个约束条件，其中p 个是不等式约束，q 个等式约束。关于这个式子可以这样来理解：式中的x 是自变量，但不限定它的维数必须为 1 （视乎你解决的问题空间维数，对我们的文本分类来说，那可是成千上万啊）。要求f(x)在哪一点上取得最小值（反倒不太关心这个最小值到底是多少，关键是哪一点），但不是在整个空间里找，而是在约束条件所划定的一个有限的空间里找，这个有限的空间就是优化理论里所说的可行域。注意可行域中的每一个点都要