zouxy09的博客支持向量机svm初级.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
zouxy09的博客支持向量机svm初级

1、zouxy09 的博客 《机器学习算法与Python 实践之 (二)支 持向量机 (SVM)初级》 /zouxy09/article/details 机器学习算法与Python实践这个系列主要是参考《机器学习实战》 这本书。因为自己想学习Python,然后也想对一些机器学习算法加深 下了解,所以就想通过Python 来实现几个比较常用的机器学习算法。 恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 在这一节我们主要是对支持向量机进行系统的回顾,以及通 过Python来实现。由于内容很多,所以这里分成三篇博文。第一篇讲 SVM初级,第二篇讲进阶,主要是把SVM整条知识链理直,第三篇介 绍Python 的实现。SVM有很多介绍的非常好的博文,具体可以参考本 文列出的参考文献和推荐阅读资料。在本文中,定位在于把集大成于一 身的SVM 的整体知识链理直,所以不会涉及细节的推导。网上的解说 的很好的推导和书籍很多,大家可以进一步参考。 目录 一、引入 二、线性可分SVM 与硬间隔最大化 三、Dual优化问题 3.1、对偶问题 3.2、SVM优化的对偶问题 四、松弛向量与软间隔最大化 五、核函数 六、多类分类之SVM 6.1、“一对多”的方法 6.2、“一对一”的方法 七、KKT 条件分析 八、SVM 的实现之SMO 算法 8.1、坐标下降算法 8.2、SMO 算法原理 8.3、SMO 算法的Python 实现 九、参考文献与推荐阅读 一、引入 支持向量机 (SupportVector Machines),这个名字可是响 当当的,在机器学习或者模式识别领域可是无人不知,无人不晓啊。八 九十年代的时候,和神经网络一决雌雄,独领风骚,并吸引了大批为之 狂热和追随的粉丝。虽然几十年过去了,但风采不减当年,在模式识别 领域依然占据着大遍江山。王位稳固了几十年。当然了,它也繁衍了很 多子子孙孙,出现了很多基因改良的版本,也发展了不少裙带关系。但 其中的睿智依然被世人称道,并将千秋万代! 好了,买了那么久广告,不知道是不是高估了。我们还是脚 踏实地,来看看传说的SVM是个什么东西吧。我们知道,分类的目的 是学会一个分类函数或分类模型 (或者叫做分类器),该模型能把数据 库中的数据项映射到给定类别中的某一个,从而可以用于预测未知类别。 对于用于分类的支持向量机,它是个二分类的分类模型。也就是说,给 定一个包含正例和反例 (正样本点和负样本点)的样本集合,支持向量 机的目的是寻找一个超平面来对样本进行分割,把样本中的正例和反例 用超平面分开,但是不是简单地分看,其原则是使正例和反例之间的间 隔最大。学习的目标是在特征空间中找到一个分类超平面wx+b 0,分 类面由法向量w 和截距b 决定。分类超平面将特征空间划分两部分, 一部分是正类,一部分是负类。法向量指向的一侧是正类,另一侧为负 类。 用一个二维空间里仅有两类样本的分类问题来举个小例子。 假设我们给定了下图左图所示的两类点Class1和Class2 (也就是正样 本集和负样本集)。我们的任务是要找到一个线,把他们划分开。你会 告诉我,那简单,挥笔一画,洋洋洒洒五颜六色的线就出来了,然后很 得意的和我说,看看吧,下面右图,都是你要的答案,如果你还想要, 我还可以给你画出无数条。对,没错,的确可以画出无数条。那哪条最 好呢?你会问我,怎么样衡量“好”?假设Class1和Class2 分别是两条 村子的人,他们因为两条村子之间的地盘分割的事闹僵了,叫你去说个 理,到底怎么划分才是最公平的。这里的“好”,可以理解为对Class1 和Class2 都是公平的。然后你二话不说,指着黑色那条线,说“就它了! 正常人都知道!在两条村子最中间画条线很明显对他们就是公平的,谁 也别想多,谁也没拿少”。这个例子可能不太恰当,但道理还是一样的。 对于分类来说,我们需要确定一个分类的线,如果新的一个样本到来, 如果落在线的左边,那么这个样本就归为class1类,如果落在线的右 边,就归为class2 这一类。那哪条线才是最好的呢?我们仍然认为是 中间的那条,因为

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档