现代机器学习理论大作业
现代机器学习理论大作业
题目:葡萄酒的种类识别
---- 基于支持向量机(SVM)的数据分类预测
学院:
姓名:
学号:
《现代机器学习理论》葡萄酒的种类识别
---- 基于支持向量机(SVM)的数据分类预测
理论知识
支持向量机(SVM)简介
支持向量机(SVM)是Vapnik等人根据统计学习理论提出的一种学习方法,近年来在模式识别、回归分析、图像处理和数据挖掘等方面得到了广泛应用。支持向量机方法根据Vapnik的结构风险最小化原则,尽量提高学习机的泛化能力,即由有限训练样本得到的决策规则,对独立的测试集仍能够得到小的误差。此外,支持向量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。这些特点使支持向量机成为一种优秀的学习算法。
目前在国外,SVM是一个研究的热门,并目已经取得了一些成果。这一点可以从近几年国外发表的学术论文看出,IEEE Transactions on Neural Networks也已经出版了关于VC理论和SVM方面的专集。自从90年代初经典SVM的提出,由于其完整的理论框架和在实际应用中取得的很多好的效果,在机器学习领域受到了广泛的重视。其理论和应用在横向和纵向上都有了发展。
目前对SVM的理论研究与进展主要包括:模糊支持向量机;最小二乘支持向量机;加权支持向量机;主动学习的支持向量机等。而对算法的改进主要内容有:降低计算量;自适应算法的研究;噪声数据处理;核函数的构造和参数的选择理论研究;主动学习策略的应用;增量学习等。
虽然SVM方法在理论上具有很突出的优势,但与其理论研究相比,应用研究相对比较落后。最近几年,应用研究才逐渐地多起来。在模式识别领域,包括手写体数字识别、人脸检测、语音识别、目标识别、文本分类等方面,取得了一定的成果。此外,支持向量机具有调节参数少,运算速度快,时间代价小的优点,随着支持向量机理论研究的逐步深入,支持向量机在模式识别、回归估计、概率密度函数估计等问题上的研究也逐步深入,必将成为各国研究者的研究热点。
2、支持向量机(SVM)原理
支持向量机(Support Vector Machine,简称SVM)是建立在统计学习理论的VC维理论和结构风险最小原理的基础上发展起来的一种机器学习方法。支持向量机集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。支持向量机的学习目标就是构造一个决策函数,能够将数据点尽可能多的正确分开。
2.1 线性可分问题
在很多现实情况下,训练样本数据具有噪声,特征空间一般不能线性分开,不可能建立一个不具有分类误差的分类超平面。如下图所示,希望找到一个最优超平面,对整个训练集合平均的分类误差的概率达到最小。
线性不可分示意图
我们在原有基础上引入了松弛变量可以用来度量样本违反约束条件的程度,在允许一定的程度上违反间隔约束。约束条件就变为
对于,样本落入分离区域的内部,挡在分类面的正确一侧,对于,则可以用来度量样本违反约束条件的程度,在允许一定的程度上违反间隔约束。约束条件就变为
则问题的目标函数和约束条件就为
其中
其中提现了经验风险,体现了表达能力,为惩罚参数,它的作用是控制对错分样本的惩罚程度,实现在错分样本的比例与最大分类间隔之间的折中,数值越大,则对错误的惩罚越重,这个值得选取依赖于经验或通过实验确定。相应地,也可以通过拉格朗日函数来求参数。
线性不可分的约束最优化问题中W和b的最优值的计算和线性可分情况中的过程是相同的,因此线性可分可以看作是线性不可分的特例。线性可分和线性不可分也仅仅区分在它们的约束条件不同,线性可分的约束条件是,而线性不可分的约束条件是。
在上述讨论的支持向量机必须所有的训练样本能够被线性分开,构造出最优分类面,很多实际情况中训练样本是不能够被线性分开的,就引出了非线性支持向量机。非线性支持向量机的实现就是通过某种事先选择的非线性映射(核函数)将输入向量映射到一个高维特征空间中,在这个空间中构造最优分类超平面。
假设有非线性映射将输入向量从原始的低维空间映射到新的高维空间中去,然后在高维特征空间中利用二次规划的方法寻找最优超平面。这就意味着建立非线性学习器分为两步:首先使用一个非线性映射将训练样本数据变换到一个特征空间中,然后在这个特征空间使用线性学习分类器分类。图展示了样本从二维输入空间映射到二维特征空间,在输入空间数据不能通过线性函数分开,但是在特征空间是可以的
图1.2.2 特征的映射
在上面的线性支持向量机对偶问题中,不论是目标函数还是分类函数都只涉及到训练样本之间
您可能关注的文档
- 现代情报学理论与方法01-2情报史.ppt
- 现代情报学理论与方法01-情报史-supplement01-centuary+of+IS.ppt
- 现代化学基础课件 第一章.ppt
- 现代控制理论-10.ppt
- 现代控制理论-12.ppt
- 现代控制理论-11.ppt
- 现代控制理论-15.ppt
- 现代控制理论-14.ppt
- 现代控制理论-13.ppt
- 现代控制理论-16.ppt
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 毕业论文(设计)-小型液压升降平台机械工程及自动化.doc VIP
- 在线网课学习课堂《现场生命急救知识与技能(南昌大学 )》单元测试考核答案.docx VIP
- 洛可可风格建筑.ppt.ppt VIP
- 鳞状细胞癌学习课件.pptx VIP
- 国企优化整合方案汇编.docx VIP
- 《农机电器设备使用维护》课件——项目一:农机电气系统基础.pptx VIP
- 开工第一课春节复工安全生产培训ppt.pptx VIP
- 宝可梦 Let's Go!皮卡丘1.02版switch大气层系统游戏修改代码.docx VIP
- 《农机电器设备使用维护》课件——农机电气系统的组成及特点.pptx VIP
- 工伤职工停工留薪期分类目录模板范本.pdf VIP
原创力文档

文档评论(0)