基于支持向量数据描述算法SVM多分类新方法.docVIP

下载本文档

2
0
约3.2千字
约 7页
2018-08-29 发布于福建
举报
版权申诉

基于支持向量数据描述算法SVM多分类新方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于支持向量数据描述算法SVM多分类新方法

基于支持向量数据描述算法SVM多分类新方法　　摘要：提出一种基于支持向量数据描述算法(SVDD)的多分类方法（S－MSVM）。受SVDD的启发，该方法对每类样本建立一个超球来界定，但训练好的超球在所有情况下都是相交的。选择相交区域的样本单独建立超球，重复该步骤，直到相交区域消失或相交区域内没有样本点。给出了该方法的时间复杂度分析，并通过实验验证了该方法具有相对较好的训练精度。　　关键词：支持向量数据描述算法；支持向量机多分类；分类器　　中图分类号：TP391文献标志码：A 　　文章编号：1001-3695(2007)11-0046-03 　　　　支持向量机[1](support vector machine，SVM)最初是针对两分类问题的，不能直接用于多分类问题。实际的模式识别问题绝大多数都是多分类问题，所以需要进行推广和改进。近些年来很多研究人员也提出了一些解决多分类问题的方法，包括一对多方法及一对一方法、层（树）分类方法、k类SVM方法和DDAG(决策有向无环图)方法。这些方法各有利弊。一对多方法的训练时间与类别数量成正比，存在不可分区域；一对一方法需要建立k(k-1)/2个分类器，计算量庞大；层分类方法同样需要求解很多二次规划问题；k类SVM方法要一次处理所有的数据，约束条件急剧增加，进行分类的二次规划十分庞大，数据的规模受限；DDAG方法未考虑样本不平衡数据对分类速度的影响而且没有考虑分类错误传递对后续产生的影响。这几种多分类方法的对比可参看文献[2]。?? 　　数据描述是学习机根据目标集的数据获得关于目标集的描述，主要用来检测新的样本是否与目标集的描述相似。如果相似则被目标集接受；否则该样本就是outlier或novelty。D. Tax等人[3]以支持向量分类器为基础提出了支持向量数据描述算法(support vector data description)。这种方法能够围绕目标类数据建立支持向量描述模型――包含目标类数据的超球体，将目标类与所有离群类分开。?? 　　受到SVDD思想的启发，对每一类样本单独使用SVDD算法，得到各个类别样本的超球，并以此超球作为分类边界。但训练好的SVM超球的间隙宽度在所有情况下均为0，而SVM的基本思想就是要最大化间隙宽度，SVDD的目标函数中也没有出现间隔最大这个条件，所以不能保证其具有良好的推广能力。本文通过对相交区域的样本点重复使用SVDD算法来提高其训练精度，也通过理论和实验证明了其时间复杂度并不比其他方法高。　　　　1SVDD简介?? 　　　　1．1SVDD算法?? 　　SVDD[3]的基本思想（图1）是把要描述的对象作为一个整体，建立一个封闭而紧凑的超球体，使得描述的对象全部或尽可能多地包在这个球体内，而非该类对象没有或尽可能少地落入该球体内。?? 　　假设训练样本中包含N个目标样本{x??i,i=1,…,N}。SVDD的思想是寻找一个能够包含所有样本的最小边界球，并以此超球作为其分类边界。所寻找的最小边界球S用半径R和球心a来描述。需要解决如下这个约束优化问题：?? 　　　　事实上，训练好的M个超球在所有情况下都是相交的，即总有部分点处于相交区域。如果测试样本落入相交区域，如何判断这个点处于哪个类别就是一个非常关键的问题。基本的决策是落入相交区域的点到哪个类别球的相对距离(即到该球球心的距离与该球半径的比值)较小就分到哪个类别。这种决策规则考虑了球的大小，但忽略了样本分布的稀疏程度，因为大球不一定囊括更多的样本点；若决策规则将靠近超球球心的更多的测试样本分给密度更大的超球，虽然考虑到超球内样本分布的稀疏程度，但仍然都是依据直观的想象来进行分类，而未考虑相交区域内的样本分布。?? 　　本文提出的多分类方法针对相交区域的样本点，单独考虑这些点，重新使用SVDD算法建立不同类别的超球。若这些超球仍然相交，重复此过程，直到相交区域消失或相交区域内没有样本点。这种方法避免了对相交区域内样本点的盲目决策，解决了由于对相交区域内样本点化分错误引起的泛化能力低的问题。该方法简称为S－MSVM(基于SVDD的SVM多分类算法)。具体的算法步骤如下：?? 　　a)对各类样本单独使用SVDD算法，得到各类样本的球心和半径；?? 　　b)选择不同类别超球之间相交区域的点；?? 　　c)对相交区域的各类点单独再次使用SVDD算法；?? 　　d)重复步骤b) c)直到没有点在相交区域或者相交区域不存在。?? 　　通过这种方法，测试样本能够被很好地划分，而且该方法的时间复杂度并不比一对一方法高(下面有证明)。对一个给定的多分类问题，相交区域的样本点经过有限步骤之后有下面两种情况：?? 　　（a）相交区域没有或者只有一类样本点。这