基于支持向量机分类方法.docVIP

下载本文档

38
0
约2.84千字
约 8页
2018-08-29 发布于福建
举报
版权申诉

基于支持向量机分类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于支持向量机分类方法

基于支持向量机分类方法　　摘要：支持向量机是建立在统计学习理论基础上的一种小样本机器学习方法，用于解决二分类问题。本文阐述了支持向量机的理论基础并对核函数的参数选择进行了分析研究。　　关键词：支持向量机最优超平面二分类核函数　　中图分类号：TP751 文献标识码：A 文章编号：1672-3791(2011)10(c)-0000-00 　　　　1 支持向量机　　支持向量机是统计学习理论中最年轻的部分，是Vapnik等根据统计学习理论中的结构风险最小化原则提出的。其主要内容在1992到1995年间才基本完成，目前仍处在不断发展阶段。支持向量机充分考虑了算法的推广能力，很多传统的机器学习方法都可以看作是支持向量机方法的一种实现，因而统计学习理论和支持向量机被很多人认为是研究机器学习问题的一个基本框架。　　最优分类超平面的构造　　支持向量机方法是从线性可分情况下的最优分类超平面提出的。对于两类的分类问题，设训练数据，，可以被一个超平面分开，即存在，使　　 (2.1) 　　分类的目的是寻求来最佳分离两类数据。此时假设空间为：　　 (2.2) 　　在这个公式里，为符号函数，和是非零常数，能任意缩放。为减少分类超平面的重复，对进行如下约束：　　 (2.3) 　　考虑图2.1所示的二维两类线性可分情况，图中实心点和空心点分别表示两类训练样本，为把两类没有错误地分开的分类线，、分别为过各类样本中离分类　　　　图2.1 最优分类超平面　　线最近的点且平行于分类线的直线，和之间的距离叫做两类的分类间隔（margin）。所谓最优分类线就是要求分类线不但能将两类无错误地分开（训练错误率为0），而且要使两类的分类间隔最大。推广到高维空间，最优分类线就成为最优分类超平面。由约束条件式得：　　 (2.4) 　　3 支持向量机的算法　　3.1 线性可分情况　　在结构风险最小化原则下的最优超平面可以通过最小化泛函　　得到。按照最优化理论中二次规划的解法，可把该问题转化为Wolfe对偶问题来求解。构造Lagrange函数：　　 (3.1) 　　式中为Lagrange乘子。　　可采用优化算法解得最优超平面为：　　 (3.2) 　　3.2 非线性可分情况　　对于非线性可分的问题，需要将样本通过非线性函数映射到高维特征空间中，使其线性可分，再在该特征空间中建立优化超平面：。于是，原样本空间的二元模式分类问题可以表示为：　　 (3.3) 　　支持向量机利用核函数简便地解决了这个问题。只要一个核函数满足Mercer条件，它就对应某一变换空间的内积，即。此时的二次优化最终结果为　　 (3.4) 　　4 仿真研究　　本文采用Iris标准数据集进行仿真实验，其数据是用来测试机器学习的UML标准数据库。Iris数据集包括三类数据：Versicolor（类1），Virginica（类2）和Setosa（类3）。在这三个类别中，类1与其余的两类之间分类比较复杂，所以，我将类1看作一类，类2和类3看作另一类，研究一个二分类问题。利用S.R.Gunn编写的Matlab中的支持向量机工具箱。本文采用目前较为常见的多项式核函数的模型选择问题进行仿真研究。　　 (4.1) 　　首先运行SVM_SteveGunn工具箱中的uniclass.m函数即得图4.1中的界面。其中，直径较小的点为类1，主要分布于中间的区域；直径较大的点为类2和类3，分布于左下和右上两侧。在下拉菜单中选择Polynomial，表示选用多项式核函数。可以选择separable（可分的）和不可分的两种算法进行分类，我分别对其进行了测试并比较。　　4.1 可分的情况　　首先选择separable的情况，整个模型仅有多项式的阶次（Degree）一个参数需要确定，我将其从1开始逐步增大。　　取不同Degree值时，支持向量机的相关性能参数如下表所示，主要有五项：执行时间、错分样本数、分类间隔、支持向量个数以及支持向量的百分比。　　　　a) 当Degree由1变为2时，错分的样本个数显著减小，由此可见核函数的参数对于正确分类起着很大的作用。　　b) 当Degree取上述四个值的时候，分类间隔都非常小，意味着支持向量机的泛化能力差。　　c) 当Degree=4时，支持向量机的各项性能较好。　　4.2 不可分的情况　　不在separable之前打勾，此时引入惩罚参数C，即程序中的Bound。固定可分时性能最佳的参数Degree=4，从小到大改变C的大小：　　　　a) 与表4.1对比，不可分情况下支持向量机的执行时间较可分情况明显减小，分类间隔