- 0
- 0
- 约2.67千字
- 约 45页
- 2022-04-27 发布于北京
- 举报
SMO算法内容提要线性可分支持向量机线性不可分支持向量机支持向量机回归实现策略多分类A+报告内容A-Separating Surface:SVM简介求解算法-SMO优化算法多分类问题系统演示SVM算法特点SVM有如下主要几个特点:(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。因此,模型需要存储空间小,算法鲁棒性强;(4)无序任何前提假设,不涉及概率测度;(1) SVM算法对大规模训练样本难以实施由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的CSVM以及O.L.Mangasarian等的SOR算法(2) 用SVM解决多分类问题存在困难经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。问题提出+1-1线性可分的分类问题:(令黑色的点 = -1, 白色的点 = +1)所以当有一个新的点x需要预测属于哪个分类的时候,我们用sgn(f(x)),就可以预测了,sgn表示符号函数,当f(x) 0的时候,sgn(f(x)) = +1, 当f(x) 0的时候sgn(f(x)) = –1。我们怎样才能取得一个最优的划分直线f(x)呢?最大距离Maximum Marginal选择使得间隙最大的函数作为分割平面是由很多道理的,比如说从概率的角度上来说,就是使得置信度最小的点置信度最大(听起来很拗口),从实践的角度来说,这样的效果非常好,等等。(x,y)wx+b=1 等价于: 因为 单调,并且为了计算方便目标函数::wx+b=-1最大距离Mf(x)=wx+b=0求解问题数据集合:优化目标:x,y为已知数求解建立拉格朗日公式:求偏导数:求解:对偶问题求解将两式带回L(w,b,a)得到对偶问题的表达式求解问题数据集合:优化目标:x,y为已知数核函数线性不可分的情况我们可以为分错的点加上一点惩罚,对一个分错的点的惩罚函数就是这个点到其正确位置的距离:软间隔C-SVMC是一个由用户去指定的系数,表示对分错的点加入多少的惩罚,当C很大的时候,分错的点就会更少,但是过拟合的情况可能会比较严重,当C很小的时候,分错的点可能会很多,不过可能由此得到的模型也会不太正确软支持向量机求解构造拉格朗日公式:求偏导数:求解问题数据集合:优化目标:其中C为人为设定,x,y为已知数问题?实际上在处理大型问题时,由于存储和计算两方面的要求,这些算法往往会失效。这些算法都要存储与训练集相应的核矩阵,然而存储核矩阵所需要的内存是随着训练集中训练点数L的平凡增长的。例如,当训练点数目超过4000时,存储核函数矩阵需要多达128兆。求解方法:坐标上升法固定除 之外的所有参数,这时W可看作只是关于 的函数,那么直接对 求导优化即可。可以通过更改优化顺序来使W能够更快地增加并收敛。如果W在内循环中能够很快地达到最优,那么坐标上升法会是一个很高效的求极值方法。问题?=固定以外的所有参数,那么将不再是变量(可以由其他值推出),因为问题中规定了因此,我们最少一次需要选取两个参数做优化,比如 和 ,此时可以由和其他参数表示出来。SMO算法SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。第一步选取一对参数,选取方法使用启发式方法(Maximal violating pair)。第二步,固定除被选取的参数之外的其他参数,确定W极值。SMO算法设我们选取了初始值满足了问题中的约束条件。接下来,我们固定其余参数,这样W就是和的函数。并且和满足条件:由于其余参数都是已知固定,因此为了方便,可将等式右边标记成实数值。SMO算法进而目标函数:其中:求偏导:带入w, v:求得:参数的求解最终参数的解为:?其中: 和横轴是/cnblogs_com/jerrylead/2
您可能关注的文档
- mschart控件的使用方法.pdf
- 18专业设计工作计划及总结.pdf
- 成都电气样本继电器.pdf
- 工程项目管理第三章项目策划.pptx
- 文本课件讲稿a6c036a6-.data.pdf
- 计量经济学第一章绪论.pptx
- 大学计算机第7讲-算法程序与计算系统之灵魂.pdf
- 第一轮复习专题4酶和atp.pptx
- 房地产基础知识总汇1.pdf
- 2018年高考地理大一轮复习课件第十八章第39讲ks5u.pptx
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
最近下载
- 2026中国饮用水源保护与瓶装水品质关联研究.docx
- 2025+ESICM临床实践指南:成人危重患者的液体治疗+—+第3部分:降阶梯治疗阶段的液体清除解读课件.pptx
- 07CJ03-1:轻钢龙骨石膏板隔墙、吊顶(参考图集).pdf VIP
- 2023年湖北高考政治试卷真题及答案详解(精校版).pdf VIP
- 财务管理学,第三版,张功富,教材配套练习题(附答案)!.pdf VIP
- GB50877-2014 防火卷帘、防火门、防火窗施工及收规范.docx VIP
- 《匹克球运动 场地通用要求及检验方法》.pdf VIP
- 《液压与气压传动 第5版》课后习题答案.docx VIP
- 2025年高中信息技术必修一全册知识点归纳总结(数据与计算).pdf VIP
- 超星尔雅学习通《人人都能上手的AI工具(超星公司)》章节测试答案.docx VIP
原创力文档

文档评论(0)