- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持向量机综述
摘要:支持向量机(Support Vector Machine)简称SVM,自从Cortes 和 Vapink提出以来,SVM在机器学习领域的很广泛的应用,SVM产长处理高维尤其是文本问题以及小样本问题,.在本文中,将主要介绍支持向量机的相关理论,以及利用支持向量机处理分类和回归的问题的过程。
关键字:支持向量机、VC维、结构风险、核技术、回归、分类
1:相关理论
支持向量机是基于统计学习理论的,在本节中,我们首先要介绍以下相关的主要统计学习理论。
1.1:VC维
统计学习理论的核心思想是通过控制学习机器的容量实现对推广能力的控制,在支持向量机中,VC维便是学习机器的容量的一个度量,VC维越高说明学习机器越复杂,推广能力便越差。
要理解VC维的概念,必须要首先明白打散的概念,给定一个点的集合(x1,x2...xn)其中xi是一个向量,代表一个点的坐标,我们需要对集合中的每一个点记性标记(1-或1)来标明一个点属于哪个类,对于一个分类器f(x),若f(x)0,那么该点归于1类,若f(x)0,该点归于-1类,显而易见,总共有2n个可能的分类情况(总共n个点,每个点有两种可能分类),给定一个函数集Fset={F(x)|F(x)=wx+b},若对于每一种分类情况,如果我们都能找到一个f(x)属于Fset满足这种分类情况,我们就说这个点集可以被Fset打散。
Fs的VC维即最大的可以被Fs打散的点集中的点的个数。为了便于理解, 下面我们将针对一个例子来求其VC维。
给定函数集Fs1={F(x1,x2)|F(x1,x2)=ax1+bx2+c},函数是定义在二维空间的线性函数,当点集中只存在一个点时,那么就只存在两种分类情况,很容易找到一个函数即可完成对其的分类。两个点时只需要取两个点的中垂线对应的函数即可完成对点集的分类,三个点的情况总共有8种分类情况,对于这8种情况,我们都可以找到一个线性函数完成分类(见图1)
图1:点集中有三个点时,对于任何一种分类情况,都能顺利的找到一个分类器
但是当点集中有四个点是,在有些情况下便无法找到一个合适的分类器完成分类,若四个点构成一个凸多边形,当要求处于凸多边形对角线为一类时,我们便无法找到合适的线性函数完成分类(见图2)
图2:点集中有四个点时,线性函数无法分类的情况
因此,函数Fs1的VC维是3。
1.2:经验风险和结构风险
机器学习的最重要的目的是期望风险最小化,但是在仅仅知道一个很小的训练集的情况下,便无法得到期望风险。直觉上,我们可以采用经验风险来代替,经验风险即通过训练集得到的误差,许多学习方法诸如神经网络和最小二乘都是采用的经验风险最小化这一方案,实际上,即使我们有一个很大的训练集,我们总可以找到一个非常复杂的解决方案使经验风险很(如非常高次的多项式),但是这种解决方案的推广能力就会比较差,而且也无法证明解决方案无限复杂是经验风险会趋近于期望风险,在支持向量机中,我们采用结构风险最小化这一方案,结构风险由两部分组成:经验风险和置信界限,当解决方案非常复杂时,也就VC维非常高的是,置信界限就会非常高,导致真实风险与经验风险之间的差别越大。解决方案就越不可取。
2:支持向量机分类
问题定义:给定一个训练集{(x1,y1).............(xm,ym)},xi是一个n为向量,代表该点的坐标。ym代表该点所属的类,在二元分类其中,ym可以取1或-1。V(y,f(x))是点x的误差,其中f(x)是分类器函数,若f(xi)0.则ym=1,否则ym=-1,我们的目的是找到一个f(x),是期望风险最小,期望风险的定义如下:
(1)
2.1二元线性分类器
线性分类器是分类问题中最简单的部分,非线性分类的问题可以通过核技术转化线性分类器,因此我们将在这里详细介绍支持向量机中的线性分类器。
在线性分类器中,分类器是一个超平面f(x)=wx-b=0,若f(x)0,那么改点属于类1,若f(x)0 该点属于类-1.也就是说class(x,w,b)=sign(w.x-b),在很多情况下,对于一个训练集,通常会存在很多正确的分类器。
图3 一个训练集的多个分类器
如何选择一个最好的分类器,我们需要设定一个标准来盘段,首先观察以下两个分类器(图4)。
图4 同一训练集的两个分类器
L1和L2哪一个比较好的分类器?从直觉上看,l1比l2好,因为类基本上位于两个类的“中间”,如果再来一个点,这个分类器能将其正确分类的可能性比较大。实际上也是如此,但是我们需要一个量化的标准,对于一个二元分类问题。点的定义为二元组(xi,yi)(i=1,2,......n)其中xi=(xi1,xi2,...
您可能关注的文档
- sql命令大全.doc
- SQL命令全集.doc
- SQL培训考题.doc
- SQL企业版与标准版.doc
- SQL如何快速处理海量数据.doc
- sql入门.doc
- sql入门,使用与高级使用篇.doc
- SQL入门,使用与高级使用篇.doc
- SQL入门级教程之存储过程.doc
- sql入门总纲.doc
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
文档评论(0)