- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持向量机的多类分类方法
1 支持向量机主要分类问题
支持向量机的功率是cortes和vampik在1995年首次提出的。它在解决小样本、非线性和高维萃取问题上显示了许多独特的优势,并可以推广到其他机器学习问题,如函数调整。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的, 根据有限的样本信息在模型的复杂性 (即对特定训练样本的学习精度) 和学习能力 (即无错误地识别任意样本的能力) 之间寻求最佳折衷, 以期获得最好的推广能力。
然而, 支持向量机本身是一个两类问题的判别方法, 实际应用中经常需要对多类问题进行分类, 这就涉及到多类问题到二类问题的转换。本文对目前常用的多分类方法进行了分析, 并给出了一些建议。
2 算法的真一次性
目前关于支持向量机的多类分类方法研究主要是在两种指导思想下进行的:
(1) 直接方法:将多个分类面的参数求解合并到一个最优化问题中来, 通过求解该问题实现“一次性”的多类分类。真的一次性考虑所有样本, 并求解一个多目标函数的优化问题, 一次性得到多个分类面:
约束条件为:
其中i=1, 2, ……n, n为样本数量;m=1, 2……k, k为类别数量。
第一种方法看起来比较直观, 但是在求解过程中的变量远远多于第二种方法, 在求解速度及精度方面不及第二种方法, 本文着重对第二种方法进行了分析。
2.1 类器性能测试
OVR (One Versus Rest) 方法其步骤是构造K个两类分类器 (共K个类别) , 第i (0iK+1) 个分类器可以区分第i个类别和其他剩余的所有类别。训练是取第i类为正类, 其余的都算作负类。测试时让每个训练样本都经过K个分类器, 最后考察K个结果。若第i分类器的结果为正, 则把这个样本判给第i类, 若没有一个分类器的结果为正, 则拒绝判定。该方法的优点是简单, 直观, 缺点就是存在拒分区域 (A, B, C, D) , 决策边界比较复杂, 容易导致“数据倾斜”, 泛化能力不强。
2.2 判别各类别
OVO (One Versus one) 方法又称为“成对分类法”, 其步骤是在训练阶段每两个类别之间构造分类器, 这样K个类别需要构造K (K-1) /2个分类器。判别时将每个未知样本依次通过各分类器, 最后统计各个类别的“得票数”, 将该样本判给得票数最多的那个类别。该方法决策边界简单, 分类精度较高, 缺点是分类器数目随类别的增加而急剧增加, 训练时间长, 存在拒分区域 (D) 。
2.3 分类规则、规则的选取
二叉树法 (Binary Tree) 类似于排序中的快速排序, 先将所有类别按照某一划分规则分成两个大的类别, 然后对每个类别依次按照规则划分, 直到不可分。该方法优点是判别速度快, 不存在拒绝域, 缺点就是分类规则的选取对分类树的性能影响较大, 泛化能力不强。对于规则的选取目前还没有比较统一的方法。
有向无环图 (Directed Acyclic Graph) 分类法在训练阶段和OVO一样, 都是先构造K (K-1) /2分类器, 但是在训练阶段类似于二叉树分类, 只不过在节点的选取上是从已经训练好的分类器中选取, 过程如图4所示。
该方法的优点是直观, 不存在拒绝域, 训练速度比较快, 分类效率较高。缺点是存在自上而下的“误差积累”, 如果头节点选取不当, 对分类精度影响很大。
3 支持向量机多类分类方法
SVM多类分类问题是个重要而又复杂的问题, 目前还没有得到很好的解决。“天下没有白吃的午餐”, 有的方法在速度上有优势, 有的则以精度取胜。目前还出现了和传统方法相结合的多类分类方法, 比如模糊SVM就是把模糊集的理论应用到支持向量机的多类分类问题中来, 还有融合无监督和有监督两种学习的策略的多类分类方法, 这些方法都表现出一定的优越性, 是未来研究支持向量机多分类方法的重要方向。
决策函数:, 判别结果为第i类。
(2) 间接方法:通过构造一系列的两类分类器并将他们通过某种方式组合在一起间接实现多类分类。
2.4 dag-svm
文档评论(0)