支持向量机与Adaboost算法原理.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持向量机与Adaboost算法原理 支持向量机 支持向量机(Support Vector Machine, SVM,以下简称SVM)是一种基于统计学习理论的机器学习方法;1992年:它是由Boser,Guyon, Vapnik在COLT-92上首次提出,SVM因其成功用于手写数字识别而流行起来。目前已经在许多智能信息获取与处理领域都取得了成功的应用。 由于SVM的求解最后转化成二次规划问题的求解,因此SVM的解是全局唯一的最优解。SVM在解决小样本、非线性、高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其它机器学习问题中。 线性SVM 对于二维、两类、线性可分情况,如图1.1所示: 图 SEQ 图表 \* ARABIC 1.1 SVM二维、两类、线性可分 中间那条实线是最优的分类线,H1,H2分别是平行于最优分类线且经过两类中离最优分类线最近的训练样本,H1,H2之间的垂直距离是分类间隔(margin),对于两类且线性可分情况,最优分类界面是能将两类样本无错误分开;分类间隔(margin)最大。 二维空间推广到高维空间,则最优分类边界的求取就变为最优分类面的求取。 设线性可分训练样本集:,,类别标号,则维空间的线性判别函数: ………………………………… (1.1) 判别函数归一化 则对所有训练样本正确分类: ……………………………(1.2) 即或 对于图1.1,设为正平面上任意点,为负平面上最接近 的点,,则: …………(1.3) 由此得出最优分类面 它的约束优化问题为: …..……………. (1.4) Lagrange极小值求取: ……………..(1.5)     ……………….(1.6) 有极小值,则: ………………(1.7) 该条件下,为: …….(1.8) 得到对偶问题: …………..(1.9) 求得唯一解:。 从而由公式(1.7)得到 ………………………….(1.10) 对于任意支持向量,, 所以: 推出最优分类函数: ………………(1.11) 其中:为支持向量,最优分类面: 对于测试样本:若,则为第一类,否则为第二类。 广义线性SVM 对于线性不可分的情况,其求解基本思路是折中思想,即:最大分类间隔+最少错分样本,归一化判别函数。对所有训练样本,引入松弛变量 ………………………..(1.12) ……………………..(1.13) C—常数,控制错分样本的惩罚程度。 非线性SVM 通过非线性映射,将原始数据由低维输入空间变换到高维特征空间。 原始数据 输入空间特征空间 在高维特征空间中,设计线性SVM,寻求最优分类面。非线性变换是通过定义适当的内积函数实现的。 Adaboost算法 Adaboost分类器旨在找到一些分类能力比较好的特征(弱分类器)构成一个强分类器,最终将所得的多个强分类器构成级联分类器。具体训练过程如图2.1所示: 图 SEQ 图表 \* ARABIC 2.1 Adaboost训练流程图 弱分类器表示形式 弱分类器的定义如下所示: ……………..………….. (2.1) 其中,为待检测的样本,为计算样本特征值的函数,为通过训练得到的弱分类器的阈值。,为两个小数,值域为[-1,+1],表示分类结果,在理想情况下: ||=||=1表示分类完全正确,+1表示正样本,-1表示负样本。 强分类器的表示形式 强分类器是由一系列训练出来的弱分类器组合成一起的,它的具体定义如下; ………………………. (2.2) 其中,为待检测的样本,为构成该强分类器的第个弱分类器,为该强分类器的阈值。的判断结果为+1,说明样本被该强分类器判为正样本,判断结果为,说明样本被该强分类器判为负样本。 多层分类器的结构 多层分类器的结构图如图2.3所示,这样一个多层结构的分类器的检测过程类似于一个倒决策树。每一级的强分类器都是由Adaboost算法训练得到的。对于第K级的负样本是前K-1级误判的作为该级的一个样本。第一层分类器把误判为正样本的负样本送入第二层分类器继续判决,接着第二层分类器再把误判为正样本的负样本送入第三层,依此类推。任何一层分类器判决出的负样本结果被直接排除,不再进行判决。所以当前层的强分类器面对的都是相对于上一层来讲更难的分类任务,因为能通过前面所有层的负样本相对于普通样本来讲是更加难以区分的。 在训练过程中,每个弱分类器的分类错误率在之间,强分类器的误检率可设为之间,最终的级联分类器是由每层强分类器串联而成,因而它的检测率和误检

文档评论(0)

_______ + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档