基于ＳＶＭ多分类决策树的研究综述.docVIP

下载本文档

93
0
约7.03千字
约 11页
2018-03-16 发布于北京
举报
版权申诉

基于ＳＶＭ多分类决策树的研究综述.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于ＳＶＭ多分类决策树的研究综述　　摘要：支持向量机（Support Vector Machine， SVM）是一种基于统计学习理论的机器学习方法，由于其出色的学习性能，早已成为当前机器学习界的研究热点；而决策树是一种功能强大且相当受欢迎的分类和预测工具。本文重点介绍支持向量机与决策树结合解决多分类问题的算法，并对其进行评析和总结。　　关键词：支持向量机；决策树；多分类；SVMDT 　　中图法分类号：TP39文献标识码：A 文章编号：1009-3044(2008)08-10ppp-0c 　　　　1 引言　　　　基于数据的机器学习是现代智能技术中的重要方面。通过对已知事实的分析总结出规律，预测不能直接观测的事实，即利用学习得到的规律，不但可以较好地解释已知的实例，而且能够对未来现象或无法观测的现象做出正确的预测和判断，我们把这种能力叫做推广能力。在人们对机器智能的研究中，一直希望能够用机器（计算机）来模拟这种学习能力，就是我们所说的基于数据的机器学习，或简单的称为机器学习问题。机器学习这门学科所关注的问题是：计算机程序如何随着经验积累自动提高性能。统计学在解决机器学习问题中起着基础性的作用。传统统计学研究的是样本数目趋于无穷大时的渐近理论，现有的学习方法也多是基于此假设。但在实际问题中，样本数往往是有限的，因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。与传统统计学相比，统计学习理论(Statistical Learning Theory，SLT)是一种专门研究小样本情况下机器学习规律的理论。Ｖ.Vapnik 等人从六、七十年代开始致力于此方面研究，为解决有限样本学习问题提供了一个统一的框架；同时，在统计学习理论基础上发展了一种新的通用学习方法――支持向量机(Support Vector Machine，SVM)3，它已初步表现出很多优于已有方法的性能。曾有学者认为，SLT和SVM 正成为继神经网络研究之后新的研究热点，并将有力地推动机器学习理论和技术的发展。　　决策树通过把样本从根结点排列到某个叶子结点来分类，叶子结点即为样本所属的分类类别。其思路是找出最有分辨力的属性，把样本集划分为许多子集（对应树的一个分枝），构成一个分枝过程，然后对每一个子集递归调用分枝过程，直到所有子集包含同一类型的样本。最后得到的决策树能对新的样本进行分类。　　本文通过对支持向量机在多分类方面的推广，引入决策树的研究，阐述SVM与决策树相结合解决多分类问题的方法。本文内容安排如下：第二节支持向量机，概述支持向量机，探讨SVM在多分类方面的推广，分析现有算法；第三节决策树的研究，介绍决策树的历史与发展；第五节支持向量机决策树，重点讨论将SVM与决策树结合的算法；最后总结。　　　　2 支持向量机相关介绍　　　　2.1 支持向量机（Support Vector Machine，SVM）　　V. Vapnik提出的支持向量机理论因其坚实的理论基础和诸多良好特性在近年获得了广泛的关注。已经有许多事实证明，作为支持向量机最基本思想之一的结构化风险最小化原则（Structural Risk Minimization, SRM ）要优于传统的经验风险最小化原则（Empirical Risk Minimization, ERM）。不同于ERM试图最小化训练集上误差的做法，SRM试图最小化VC维的上界，从而使其学习机获得了更好的推广性能，这恰恰是统计学习理论最重要的目标之一。　　SVM的优势在于其方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度，Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷，以期获得最好的推广能力(Generalizatin Ability) 2。支持向量机方法的几个主要优点是：可以解决小样本情况下的机器学习问题；可以提高泛化性能；可以解决高维问题；可以解决非线性问题；可以避免神经网络结构选择和局部极小点问题。　　2.2 多类支持向量机　　然而，最初研究的SVM是用来解决二分类问题，并不能直接运用在多分类方面，如何有效地将其推广到多类分类问题还是一个正在研究的问题。当前已经有算法将SVM推广到多类分类问题，这些算法统称为“多类支持向量机”(Multi-Category Support Vector Machines，M-SVMs) 。它们可以大致分为两大类：其一，是Weston 在1998年提出的基于改进目标函数的多类分类算法，即将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题“一次性”地实现多类分类；其二，通过某种方式构造一系列的两类分类器并将它们