6.4分类和预测-支持向量机讲解.pptVIP

下载本文档

11
0
约3.43千字
约 46页
2016-04-28 发布于湖北
举报
版权申诉

6.4分类和预测-支持向量机讲解.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘与知识发现第六章分类和预测数据挖掘与知识发现 Outline 支持向量机概述线性支持向量机非线性支持向量机核函数研究现状与应用支持向量机概述 1963年，Vapnik在解决模式识别问题时提出了支持向量方法,这种方法从训练集中选择一组特征子集,使得对特征子集的划分等价于对整个数据集的划分,这组特征子集就被称为支持向量(SV)。 1971年，Kimeldorf提出使用线性不等约束重新构造SV的核空间,解决了一部分线性不可分问题。 1990年，Grace,Boser和Vapnik等人开始对SVM进行研究。 1995年，Vapnik正式提出统计学习理论。支持向量机概述 SVM从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。 SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。过两类样本中离分类面最近的点且平行于最优分类面的超平面上H1,H2的训练样本就叫做支持向量。 Outline 支持向量机概述线性支持向量机非线性支持向量机核函数研究现状与应用线性支持向量机——可分情况线性支持向量机——可分情况线性支持向量机——可分情况假定训练数据可以被一个超平面分开我们进行正归化此时分类间隔等于使最大间隔最大等价于使最小线性支持向量机——可分情况最优分类面问题可以表示成约束优化问题 Minimize Subject to 定义Lagrange函数线性支持向量机——可分情况 Lagrange函数一个简单的例子一个简单的例子线性支持向量机——不可分情况很多情况下，训练数据集是线性不可分的，Vapnik等人提出了用广义分类面（松弛子）来解决这一问题。 Outline 支持向量机概述线性支持向量机非线性支持向量机核函数研究现状与应用非线性支持向量机非线性问题——通过非线性变换将它转化为某个高维空间中的线性问题，在这个高维空间中寻找最优分类面。高维空间中的最优分类面分类函数只涉及到训练样本之间的内积运算(xi·xj),因此,在高维空间中只需进行内积运算,这种内积运算可通过定义在原空间中的函数来实现, 甚至不必知道变换的形式。 SLT指出,根据Hibert-Schmidt原理,只要一种运算满足Mercer条件,就可以作为内积使用。 Mercer条件非线性支持向量机在最优分类面中采用适当的内积函数就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加。非线性支持向量机 Outline 支持向量机概述线性支持向量机非线性支持向量机核函数研究现状与应用核函数 SVM中不同的内积核函数将形成不同的算法,主要的核函数有三类：多项式核函数径向基函数 S形函数 Outline 支持向量机概述线性支持向量机非线性支持向量机核函数研究现状与应用研究现状应用研究支持向量机研究支持向量机算法研究应用研究 SVM的应用主要于模式识别领域贝尔实验室对美国邮政手写数字库进行的实验主要应用领域手写数字识别语音识别人脸识别文本分类支持向量机研究如何针对不同的问题选择不同的核函数仍然是一个悬而未决的问题。标准的SVM对噪声是不具有鲁棒性的,如何选择合适的目标函数以实现鲁棒性是至关重要的。支持向量机算法研究支持向量机的本质是解一个二次规划问题,虽然有一些经典（如对偶方法、内点算法等）,但当训练集规模很大时,这些算法面临着维数灾难问题。为此,人们提出了许多针对大规模数据集的SVM训练算法。支持向量机算法研究（续1）思路1：分解子问题块算法 SMO算法(Sequential Minimal Optimization) 思路2：序列优化思路3：近邻SVM 支持向量机算法研究（续2）训练SVM的绝大多数算法都是针对分类问题,只有一小部分算法考虑了回归函数的估计问题。提高算法效率、降低复杂度。总结 SVM在模式识别、回归函数估计、预测等大量应用中取得了良好的效果 SVM存在两个主要问题：二次规划的训练速度核函数的选择前途是光明的，道路是曲折的。 4.0% SVM 5.9% 最好的两层神经网络 16.2% 决策树C4.5 2.5% 人工表现错误率分类器 SVM与神经网络（NN）的对比 SVM的理论基础比NN更坚实，更像一门严谨的“科学”（三要素：问题的表示、问题的解决、证明） SVM —— 严格的数学推理 NN —— 强烈依赖于工程技巧推广能力取决于“经验风险值”和“置信范围值”，NN不能控制两者中的任何