SVM理论与算法解析.docxVIP

下载本文档

0
0
约6.63千字
约 16页
2018-11-12 发布于江苏
举报
版权申诉

SVM理论与算法解析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SVM理论与算法解析

硬间隔线性支撑向量机假设给定一个特征空间上的训练数据集： T= 其中，xi∈Rn, yi∈+1,-1,i=1,2,…,N, xi为第i个特征向量或实例， yi为xi的类标记，当假设训练数据集是线性可分的（存在硬间隔），那么学习的目标是在特征空间找到一个分离超平面，能将实例分到不同的类。分离超平面方程w?x+b=0，它由法向量w和截距b决定，可用w,b表示。分离超平面将特征空间分为两部分，一部分是正类，一部分是负类。法向量指向的一侧为正类，另一侧是负类。一般地，当训练数据集线性可分时，存在无穷个分离超平面可将两类数据正确分开，感知机利用误分类最小的策略，求得分离超平面，不过这是的解有无穷多。线性可分支撑向量机利用间隔最大化求最优分离超平面，解唯一。一、模型推导 1.函数间隔：一般来说，一个点距离分离超平面的远近可以表示分类预测的确信程度。在超平面w?x+b=0确定的情况下，|w?x+b|能够相对地表示（注意：真实距离为|w?x+b|∥w∥）点x距离超平面的远近。而w?x+b的符号与类标记y的符号是否一致能够表示分类是否正确。所以可用标量yw?x+b来表示分类的正确性及确信度超平面w,b关于样本点xi γ 超平面w,b关于训练数据集T的函数间隔： γ 2.几何间隔：函数间隔可以表示分类预测的正确性及确信度，但是选择分离超平面时，只有函数间隔还不够。因为只要成比例地改变w和b，虽然超平面并没有改变，但函数间隔（它是w,b的线性函数）却依原比例同等改变。为了将w,b表示的超平面的唯一化，即每个超平面对应Rn+1中的唯一向量w,b，可以对法向量w加以规范化约束∥w∥=1，超平面w,b关于样本点xi γ 超平面w,b关于训练数据集T的几何间隔为： γ= 3.间隔最大化支撑向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。对于线性可分的训练数据集而言，线性可分分离超平面有无穷多个，每一个都是一个感知机，但是几何间隔最大的分离超平面时唯一的。间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的却新都对训练数据进行分类。也就是说，不仅将正负实例点要分开，而且对最难分的实例点（离超平面最近的点）也有足够多大的确信度将它们分开。因此所要优化的问题表示为： max s.t. 改写为， max s.t. γ的取值不影响最优化问题的解（如果w*,b*是最优解，那么λw*,λb*也是最优解，因此γ是变动的可以取到任意值，如果固定γ， max s.t. （目标函数是支撑间隔，约束是样本点在间隔边界或外侧，目标是寻找支撑向量使得间隔最大化）等价变换为（标准无等式约束的凸二次规划，这是为了运算方便）， min s.t. 凸二次规划问题存在全局最优解w* （4）分离超平面与分类决策函数分离超平面: w 分类决策函数: f （5）支撑向量与间隔边界在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支撑向量，支撑向量是使约束条件等号成立的点，即1-yiw?xi+b=0，对于正例点，支撑向量在超平面w?x 在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用。如果移动支持向量将改变所求的解，但是如果在间隔边界以外移动其他实例点，甚至去掉这些点，则解是不会改变的。显然支撑向量是训练集中重要的样本。二、模型求解将原始问题转化为Lagrange对偶问题，通过求解对偶问题来获得原始问题的最优解：对每个不等式约束引入Lagrange乘子αi 1．Lagrange对偶函数： L 其中α=α1,α2,…, 2.对偶问题： max 求min ? ? 得出 w= i=1 带入拉格朗日函数，得出 min =- （2）求max max s.t. αi≥0 转换为求极小 min s.t. αi≥0 根据对偶理论，对上述对偶优化存在，使w*，b 3.最优解根据KKT条件 ?w*Lw ?b*Lw αi*yi yiw*? αi*≥0, i=1,2,…,N----------------------------------------------------------- 由（a）求得 w 其中至少有一个αk*0（如果α*=0，那么w*=0，b*无解， y 将w*带入KKT条件 y 两边同时乘以yk，由于 y i=1 b 因此分类决策函数为 f 从w*，b*中可以看出它们仅仅依赖于αk*0的特征点，即支撑向量软间隔线性支撑向量机一、模型推导如果样本集中存在特异点使得样本集线性不可分，即不能满足函数间隔大于等于1不等式约束条件，为了解决这个问题，可以对每个样本点xi，yi引入一个松弛变量 y 同时对每个松弛变量ξi，支付一个代价ξ min 这里，