支持向量机原理与实验.docVIP

下载本文档

125
0
约9.65千字
约 13页
2016-12-31 发布于重庆
举报
版权申诉

支持向量机原理与实验.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

支持向量机原理与实验支持向量机分类问题支持向量机是基于统计的学习理论和结构风险最小化原则的机器学习。而原则是针对二值分类问题（两类的分类问题）提出的，因此，关于的基本问题是二值分类问题。设有两类模式和，是从模式和中抽样得到的训练集，其中、。若属于类，则对应有；若属于类，则对应有；。寻求上的一个实函数，对于任给的未知模式，有或者式中为符号函数，称为决策（分类）函数。我们称解决上述问题的方法为“分类机”。当为线性函数时，称为线性分类机；当为非线性函数时，称为非线性分类机。对于这个二维问题，线性分类机的作用就是要在和之间寻找一条分类线，其表达式为。我们已经熟知，在高维情况下是一个超平面。对于线性可分的两类模式和而言，能够准确将其分开的直线不是唯一的。假设有直线可以无误地将和两类模式分开，另有直线和直线与之间的间距为，与之间形成一个没有学习样本的带状区域，不妨称该带状区域为“边带”，而是边带的中分线。显然，最合理的分类线应该具有最宽的边带。假设，已知分类线的法线矢量为，则分类线的表达式为：式中表示矢量点积。显然，到原点距离为。对于给定的所有个学习样本，应满足：或写成直线和直线与分类线之间的间隔距离为，则这两条边界线的表达式分别为：直线和直线之间的间距为，寻找最大带宽的问题，转化为在保证所有学习样本满足条件的前提下，寻找使达到最大的问题了。是一个标量，因此，可以取;。于是，分类线的表达式可以改写成：直线和直线的表达式可以改写成：当增大时，变小。于是，寻找最大带宽的问题，变成了寻找最小的问题，为了计算上的方便，取目标函数为。对于任意学习样本，其分布必然在直线之上或直线之下。即有将以上两式合并，有在选择分类线的过程中，上式对于任何学习样本都必须成立。在此前提下寻找最宽边界的问题，最后可以表示成一个约束优化问题：这里目标函数中的没有其他意义，只是为了下一步导出求解方法时方便。即求得最优解和；分类函数为从以上分析过程可知，对于任意学习样本，有学习样本是实际模式的抽样或特例，工作中的实际模式可能超过学习样本的分布范围。如果能够预测到实际模式的分布，并且根据其分布确定分类函数，我们称之为“预测最优”。但实际上是很难做到的，无论我们得到多大规模的样本都总是实际问题的抽样或特例，以这些数据所做的任何估计都只是以局部推测全局。以上得到的“支持向量机”取两类样本之间最大边带的中心为分类函数，显然是对现有学习样本的最佳分类。尽管这样的分类函数未必是“预测最优”，但这种方法比器硬“限幅函数单个神经元”只能得到一个可行的分类函数来说，有更强的合理性。我们称支持向量机获得的分类函数具有“结构最优”性。从结构上还可以看出，最宽边界只取决于个别样本，大量位于直线和直线外边的样本对最宽边界并没有影响。称恰好位于直线和直线上的样本为“支持向量”。这正是这种算法称为“支持向量机”的原因。两类线性可分支持向量机的求解现在回到两类线性可分的分类机问题上。两类线性可分的支持向量机问题是一个二次规划问题（目标函数上多了一个平方），二次规划问题是典型的凸优化问题，可以转换成拉格朗日问题求解。定义拉格朗日函数其中，。由条件，函数在按点位只满足：将上式带入月拉格朗日函数，得到问题的对偶问题：这是一个标准的二次规划问题，是在一个不等式约束条件下进行二次函数寻优。该问题存在唯一解。可求出：，根据已经得到的和支持向量求出并构造分类函数，并得到最优分类超平面：从线性约束凸优化问题的几何意义可知，只有与相对应的那些约束条件才是有效的。对应于支持向量机问题，这些所对应的学习样本是支持向量，它们恰好位于分类边带线上，两条边带线为：其余与对应的约束条件中的样本点，都位于上边带之上或下边带之下，这些点的存在并不影响分类函数的位置。广义线性支持向量机（近似线性可分情况）近似线性可分支持向量机，又叫软间隔支持向量机(SoftmarginSVM)，是在线性可分的情况下建立起来的.在最优化问题上添加松弛因子和惩罚因子C，允许有错分样本存在.在这里我们考虑一次损失函数的SVM，原始问题构造为：该问题的对偶问题如下：模型与求解过程同标准方法相似。线性不可分支持向量机实际应用中，一般分类问题在定义的特涨空间中不一定线性可分，把问题转为已知问题，降低维空间中的数据特征映射到高维线性特征空间中，然后在高位空间中求线性最优超平面。这时对偶形式的目标函数变为：对偶形式中出现两向量的内积运算，Vapnik等人提出采用满足Mercer条件的核函数来替换内及运算，即实现非线性软间隔分类，成立的Mercer条件