14.2.3非线性支持向量机.ppt
Copyright 2003-12, SPSS Taiwan Corp. 数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编 邓 松 李文敬 刘海涛 编著 电子工业出版社 数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编 邓 松 李文敬 刘海涛 编著 电子工业出版社 14.1支持向量机基础 支持向量机(support vector machines)是由贝尔实验室研究者Vapnik于20世纪90年代最先提出的一种新的机器学习理论,是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。 支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。 统计方法是从事物的外在数量上的表现去推断该事物可能的规律性,它主要考虑测试预想的假设和数据模型拟合,依赖于显式的基本概率模型。 统计学习理论是针对小样本情况下的机器学习理论,它依据算法的经验风险以及算法本身的构造推测它的实际风险,获得了较好的算法泛化能力。统计学习理论将算法的训练过程看作算法向训练样本学习的过程。 统计学习理论的4个部分: 学习过程一致性的理论。一个基于经验风险最小化原则的学习过程满足什么条件,它的经验风险与实际风险趋向一致。 学习过程收敛速度的理论。如果学习过程的经验风险与实际风险趋向一致,那么它们间的接近速度随着训练样本数的增加是如何变化的。哪些因素控制着它们接近的速度。 控制学习过程泛化能力的理论。采用前两部分的结论改进学习过程。 构造学习算法的理论。采用前三部分的结论,在分类和拟合问题中构造现实的学习算法。 14.1.1机器学习的基本问题 统计学习理论领域里把学习问题看作是利用有限数量的观测来寻找待求的依赖关系的问题。而基于数据的机器学习问题,则是根据已知样本估计数据之间的依赖关系,从而对未知或无法测量的数据进行预测和判断。 样本学习的一般模型 机器学习的目标可以形式化的表示为:根据n个独立同分布的观测样本 ,在一组函数 中求出一个最优函数 ,使其对未知样本进行估计时,最小化期望风险泛函。 其中 联合概率分布是未知的, 是用 对y进行预测时造成的损失,称为损失函数。简单地说,学习的目标就是求一映射函数 ,使之与实际系统映射的差异最小。 14.1.2经验风险最小化问题 学习机器产生的映射函数与实际系统的映射之间的差异可以用单个样本点上的损失函数 来描述 。损失函数在总体样本集上的数学期望,即为期望风险的泛函: 14.1.3 VC维与学习一致性理论 对于二值分类问题,其目标函数f只有0和1两种取值,称这类函数为指示函数。 对于一个指示函数集的VC维是指能够被“打散”(即,被里的函数按照所有可能的形式分开)的样本集合可能具有的最大样本数(或称作样本集合的最大基数),记作 。 一般而言,VC维代表了机器的学习能力,其值越大表明其学习机器的学习能力越强,但学习机器就越复杂。然而,目前还没有通用的关于计算任意函数集的VC维的理论,只有对一些特殊函数集的VC维可以准确知道。 对于指示函数集和概率分布函数,如果下列两序列概率地收敛到同一极限,则称为经验风险最小一致性。 在VC维和学习一致理论基础上,Vapnik等人证明了对二值分类问题,指示函数集中所有的函数,经验风险和实际风险之间至少以概率满足如下关系: 14.1.4结构化风险最小化 通常,在小样本的情况下,对于复杂的学习机器,其训练误差过小,但反而造成了置信范围的增大,从而导致泛化性能下降。这往往是由于学习机器的结构不合理造成的。因此,ERM原则在样本有限时是不合理的。为此,统计学习理论提出了一种新的策略,在保证ERM原则的基础上,降低学习机器的VC维,能够使得期望风险在整个总体集上得到控制,即在训练误差和置信范围二者之间寻求一个折衷。这种思想就是结构风险最小化(Structural Risk Minimization,SRM)原则。 14.2支持向量机的基本原理 基本概念 一般地,如果一个线性函数能够将样本完全正确的分开,就称这些数据是线性可分的,否则称为非线性可分的。 如果不关注函数空间的维数,这种线性函数还有一个统一的名称,叫超平面(Hyper Plane)。 通常人们称由线性函
您可能关注的文档
- 1.YNedut平台系统整体架构说明.doc
- 1.中国现场流行病学培训项目介绍-中国疾病预防控制中心应用门户.doc
- 1.产品概述-台州仓库软件.doc
- 1.固定数据库角色-Read.ppt
- 1.图说医药一图胜千言.doc
- 1.宋庆龄儿科医学奖申报推荐书-中国宋庆龄基金会.doc
- 1.实体完整性约束.ppt
- 1.烟花爆竹销毁安全指南(暂行).doc
- 1.系统安装-烘焙之星软件.doc
- 10.11加权关联规则挖掘算法.ppt
- 河南省新乡市延津县2025-2026学年上学期九年级期末数学试卷(含答案).pdf
- 2025年市场营销岗位职责16篇.docx
- 河南省驻马店市汝南县双语学校、清华园学校2025-2026学年九年级(上)期末化学试卷(含答案).pdf
- 黑龙江齐齐哈尔2025-2026学年上学期高一数学1月期末试卷(含解析).pdf
- 2025年年度房地产销售工作总结(优选6篇).docx
- 2025年拼装式起重机桅杆、龙门吊安全操作规程说明汇编(3篇范文).docx
- (6页PPT)第七单元自然之趣语文园地.pptx
- 黑龙江省大庆市铁人中学2025-2026学年上学期高二期末物理试卷(含答案).pdf
- 2025年木工支模拆模安全操作规程.docx
- 2025年微信微博推广岗位职责汇编(2篇).docx
最近下载
- 框架桥(涵)工程监理实施细则.doc
- 2024-2030年生物基高级相变材料(PCM)行业市场现状供需分析及市场深度研究发展前景及规划投资研究报告.docx
- 宿舍楼某学校学生宿舍楼设计.doc VIP
- 九年义务教育控辍保学工作方案.doc VIP
- 2025年安徽中考语文试卷及答案出炉 .pdf VIP
- KA 25-2025 煤矿井下机电设备完好性要求.docx VIP
- 劳动合同中止期间的工资支付与社保缴纳义务.docx VIP
- T BALI 003—2023 节律照明灯具性能要求.pdf VIP
- 2012年江苏高考数学试卷真题及答案.doc VIP
- 高中地理野外实践活动与乡土文化传承的结合研究教学研究课题报告.docx
原创力文档

文档评论(0)