SVM(二).pptVIP

下载本文档

2
0
约 39页
2017-03-27 发布于河南
举报
版权申诉

SVM(二).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SVM(二)

* 支持向量机相关问题买芒果别人用经验告诉你，要挑金黄色的买。你买回去发现不是所有金黄色的芒果都甜，个大金黄色的一定甜，个小金黄色的有一半是甜的。换一个芒果摊，这些经验不能用了，因为不是所有的芒果都产自一个地方，这个摊位个小金黄色的甜。别人不喜欢甜的喜欢鲜嫩多汁的，你发现越软的越多汁。等你到另外一个地方，那里可能绿色的味道更好。等你结婚，你媳妇不喜欢芒果，好吧，你要重新开始“遍尝百果”。还有一种方法，你从市场上买一种芒果回家，你把每一个芒果的颜色，大小，形状，产地等都记录，这个算法会自动找出彼此的关联性，等你下次去的时候，你带上你的电脑，高速电脑这个芒果什么样子，电脑就帮你预测这个芒果的味道了。用生活经验告诉你数据挖掘与机器学习的区别支持向量机 SVM 用于分类（SVC）用于预测（SVR）支持向量机用于分类如何分类是最优？支持向量机用于分类（一） H为分类线，H1、H2分别为过各类中离分类线最近的样本且平行于分类线的直线，它们之间的距离叫做分类间隔。所谓最优分类线，就是要求分类线不但能将两类正确分开（训练错误率为0），而且使分类间隔ρ最大 r H2 H1 H 支持向量支持向量机用于分类（二）支持向量机用于分类（三）如果所有数据点距离最优分类平面的距离都大于1，即可以实现正确分类，则对于数据点 xi ,yi ，满足下式对于每一数据点，距离分类平面的距离为：，对于支持向量来说，上面不等号改为等号。则分类间隔为：: wTxi + b ≥ 1 if yi 1 wTxi + b ≤ -1 if yi -1 由于最佳分类平面的ρ 最大，则问题可转化为: 上式还可表达为：寻找w 和b 使得: 最大; 并对所有数据点 xi ,yi 有 wTxi + b ≥ 1 if yi 1; wTxi + b ≤ -1 if yi -1 Min ? wTw; St. yi wTxi + b ≥ 1 支持向量机用于分类（四）当因噪声等原因，会出现分类错误。此时，引入松弛变量 ξi ；从而可以实现有噪情况下的分类 ξi ξi 松弛变量ξ i可以看作是错误分类产生的误差支持向量机用于分类（五）原来的表达式: 引入松弛变量后的表达式: 参数C用来调节正则化和经验风险部分之间的平衡，还可以看作是对错误分类点的惩罚参数 Min ? wTw; St. yi wTxi + b ≥ 1 Min ? wTw + CΣξi St. yi wTxi + b ≥ 1- ξi ξi ≥ 0 支持向量机用于分类（六）解决线性不可分的一般方法：将原数据集影射到高维特征空间，从而实现线性可分： x → Φ x 支持向量机用于分类（七）影射到高维特征空间后，约束表达式变为： Min ? wTw + CΣξi St. yi wTxi + b ≥ 1- ξi ξi ≥ 0 Min ? wTw + CΣξi St. yi wT Φ xi + b 1- ξi 支持向量机用于分类（八）支持向量机用于分类的具体实例最常见的用法是基于词典的分类方法：通过已知类别的训练集构造出一个分类函数或分类模型分类器，并利用此分类模型将未知的文档映射到给定的类别空间。文本分类的关键是如何构造分类函数也称为分类器，将未知文本与给定的类别模板进行匹配。以文本分类为例：对文本进行分类时：首先是从具体问题中获取文本训练数据进行预处理即利用向量空间模型把文本表示成向量形式；其次就是根据具体的需要选择恰当的核函数及核函数参数。 1 利用向量空间模型处理方法把文本数据转化为SVM分类算法能处理的形式; SVM文本分类算法步骤如下: 一篇文档由许多的词所组成，可以找出文件中有意义的索引词汇组合成文件向量，而此向量即代表在向量空间模型中的一篇文件。在一个文件集中，每个索引词汇代表空间中的一个维度，而每个维度上的值则代表该文件在这个维度上的重要程度 w1 w2 w3 doc1 1 2 3 doc2 1 3 4 doc3 2 3 1 2 选择合适核函数，众多实验表明，一般情况下选择RBF作为核函数所得结果最好 3 求解最优的参数，利用PSO（粒子群）最优化算法找出SVM分类器的最优参数（参数寻优的算法很多，PSO只是其中一种，还有遗传算法等等） 4 利用3 所得到的最优参数应用SVM算法分类器来对文本样本数据进行训练并用测试集进行分类预测实验首先采集一定数量的信息建立相应的垃圾信息集和合法信息集．信息要进行预处理信息预处理的过程也就是对信息进行空间向量化的过程．利用相应的分类算法对已知的垃圾信息样本集进行训练统计相应数据获得相应参数和阈值构建分类