大数据十大经典算法SVM讲解PPT.pptxVIP

下载本文档

0
0
约3.82千字
约 10页
2025-04-19 发布于四川
举报
版权申诉

大数据十大经典算法SVM讲解PPT.pptx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘十大算法之SVM程广兵201

分类概念：通过构造一个分类函数或分类器的方法，该方法能把数据库中的数据项映射到给定类别中的某一个，从而可以用于预测未知数据。数据：线性可分线性不可分

什么是SVM全名：SupportVectorMachine（支持向量机）支持向量：支持或支撑平面上把两类类别划分开来的超平面的向量点。机：一个算法基于统计学习理论的一种机器学习方法。简单的说，就是将数据单元表示在多维空间中，然后对这个空间做划分的算法。

SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性之间寻求最佳折衷，以期获得最好的推广能力（或泛化能力）。核函数松弛变量SVM的特点

线性分类1

线性分类

最优标准：分类间隔添加标题对于给定的训练数据集T和超平面（w,b），定义超平面（w,b）关于样本点（xi,yi）的函数间隔为添加标题对于给定的训练数据集T和超平面（w,b），定义超平面（w,b）关于样本点（xi,yi）的几何间隔为添加标题||w||叫做向量w的范数,WX的p范数为||w||p=(X1^p+X2^p+...+Xn^p）^(1/p)添加标题函数间隔和几何间隔的关系?=?/||w||（1）

H2与H之间的间隔便是几何间隔。其中H1：wx+b=1；H2：wx+b=-1；定义超平面（w,b）关于训练数据集T的函数间隔为超平面（w,b）关于T中所有样本点（xi,yi）的函数间隔之最小值，即同理最终问题转化成为求最大?值。（ps:我的理解在找到几何间隔?后，就要使H1和H2尽可能的离H远，这样分类就更有说服力）最优标准：分类间隔

求最大的?在H1和H2上的点就叫做支持向量H1和H2之间的距离称为间隔，间隔依赖于法向量w,等于2/||w||,H1和H2称为间隔边界由等式（1），可将问题写为

求最大的?由于函数间隔?不影响最优化问题的解，这样可以取?=1，由于最大化1/||w||和最小化1/2*||w||*||w||问题是等价的于是问题便转化成了求很容易看出当||w||=0的时候就得到了目标函数的最小值。反映在图中，就是H1与H2两条直线间的距离无限大，所有样本点都进入了无法分类的灰色地带解决方法：加一个约束条件

约束条件我们把所有样本点中间隔最小的那一点的间隔定为1，也就意味着集合中的其他点间隔都不会小于1，于是不难得到有不等式：yi[w,xi+b]≥1(i=1,2,…,l)总成立。于是上面的问题便转化成了求条件最优化问题：

最优问题的求解这是一个凸二次规划问题，所以一定会存在全局的最优解，但实际求解较为麻烦。实际的做法：将不等式约束转化为等式约束，从而将问题转化为拉格朗日求极值的问题。

最优问题的求解为了求解线性可分支持向量机的最优化问题（2）~（3），将它作为原始最优化问题，应用拉格朗日对偶性（参考李航的统计学习方法附录C），通过求解对偶问题得到原始问题的最优解，这是线性可分支持向量机的对偶算法。

引入拉格朗日乘子（ps:之所以，=0是因为如果不做限定，因为要求极大值，而，那么可以取负无穷，这样目标值就会无穷大，其实当点是支持向量时0,其他的点=0）利用Lagrange乘子法：当点是支持向量时y(wx+b)=1当点不是支持向量时y(wx+b)1这样Lagrange函数的第二项始终为零凸二次规划问题求解

凸二次规划问题求解代入L(w,b,a):问题转换为

凸二次规划问题求解

凸二次规划问题求解更多细节请参照李航的统计学习方法SVM这一章

例题为了

例题

线性分类目标函数：约束条件：目标函数：约束条件：拉格朗日乘数法可将问题转化为对偶问题：目标函数：约束条件：

线性分类巧妙之处：原问题=二次凸优化问题=对偶问题对偶问题求解：更巧妙的地方：未知数据x的预测，只需要计算它与训练数据点的内积即可

非线性分类对于以上所述的SVM，处理能力还是很弱，仅仅能处理线性可分的数据。如果数据线性不可分的时候，我们就将低维的数据映射向更高的维次，以此使数据重新线性可分。这转化的关键便是核函数。

非线性分类找不到一个超平面（二维空间：直线）将其分割开来，而很自然的想到可以用一个椭圆将数据分为两类Z1=X1,Z2=X12,Z3=X2,Z4=X22,Z5=X1X2(X1

您可能关注的文档

文档评论（0）

SYWL2019 + 关注: 官方认证

文档贡献者

权威、专业、丰富

咨询Ta 进入空间

认证主体四川尚阅网络信息科技有限公司

IP属地四川

统一社会信用代码/组织机构代码: 91510100MA6716HC2Y

1亿VIP精品文档

更多 >

大数据十大经典算法SVM讲解PPT.pptxVIP