- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE \* MERGEFORMAT 20
SVM 支持向量机
目录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc416345109 一、简介 PAGEREF _Toc416345109 \h 1
HYPERLINK \l _Toc416345110 二、线性分类器 PAGEREF _Toc416345110 \h 3
HYPERLINK \l _Toc416345111 三、分类间隔指标 PAGEREF _Toc416345111 \h 4
HYPERLINK \l _Toc416345112 四、线性分类器的求解 PAGEREF _Toc416345112 \h 8
HYPERLINK \l _Toc416345113 五、核函数 PAGEREF _Toc416345113 \h 9
HYPERLINK \l _Toc416345114 六、松弛变量 PAGEREF _Toc416345114 \h 11
HYPERLINK \l _Toc416345115 七、惩罚因子C PAGEREF _Toc416345115 \h 15
HYPERLINK \l _Toc416345116 八、SVM用于多类分类 PAGEREF _Toc416345116 \h 17
HYPERLINK \l _Toc416345117 九、SVM的计算复杂度 PAGEREF _Toc416345117 \h 19
一、简介
支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。
以下逐一分解并解释一下: 统计机器学习之所以区别于传统机器学习的本质,就在于统计机器学习能够精确的给出学习效果,能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比,传统的机器学习基本上属于摸着石头过河,用传统的机器学习方法构造分类系统是一种技巧,一个人做的结果可能很好,另一个人差不多的方法做出来却很差,缺乏指导和原则。
VC维是对函数类的一种度量,可以简单的理解为问题的复杂程度,VC维越高,一个问题就越复杂。SVM关注的是VC维,和样本的维数是无关(甚至样本可以是上万维的,这使得SVM很适合???于解决文本分类的问题,也因此引入了核函数)。
结构风险最小: 机器学习本质上就是对问题真实模型的逼近(我们选择一个我们认为比较好的近似模型作为假设),而真实模型是未知的。假设与问题真实解之间的误差,叫做风险(更严格的说,误差的累积叫做风险)。我们选择了一个假设(即分类器)之后,我们可以用某些可以掌握的量来逼近误差,最直观的方法就是使用分类器在样本数据上的分类的结果与真实结果(样本是已标注过的数据,即准确的数据)之间的差值来表示。这个差值叫做经验风险Remp(w)。以前的机器学习方法都把经验风险最小化作为努力的目标,但后来发现很多分类函数能够在样本集上很轻易的达到100%的正确率,在应用于真实分类时却一塌糊涂(即推广能力差,或称泛化能力差)。此时需要选择了一个足够复杂的分类函数(它的VC维很高),精确的记住每一个样本,但对样本之外的数据一律分类错误。基于经验风险最小化原则我们就会发现,该原则适用的大前提是经验风险要能够逼近真实风险才行,但实际上是不能逼近的,因为样本数相对于现实应用要分类的文本数来说太少,经验风险最小化原则只能在占很小比例的样本上做到没有误差,不能保证在更大比例的真实文本上也没有误差。
统计学习从而引入泛化误差界的概念,即真实风险应该由经验风险,代表了分类器在给定样本上的误差,以及置信风险,代表了我们能在多大程度上信任分类器在未知文本上分类的结果。置信风险是无法精确计算的,只能给出一个估计的区间,使得整个误差只能计算上界,而无法计算准确值。
置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。
泛化误差界的公式为: R(w)≤Remp(w)+Ф(n/h)
公式中R(w)就是真实风险,Remp(w)就是经验风险,Ф(n/h)就是置信风险。统计学习的目标从经验风险最小化变为了结构风险最小,
您可能关注的文档
- HIS需求参考技术分析.docx
- HIV病毒技术分析.docx
- HIV感染者的弓形虫感染技术分析.docx
- HLA半相合免疫细胞治疗肿瘤疾病备案教材技术分析.docx
- ICU常见病症技术分析.docx
- ICU患者肺部真菌感染技术分析.docx
- IncTCF7通过调控TCF7,激活wnt通路,促进了肝癌干细胞更新与增殖技术分析.docx
- Informationfortors_revised_April14给医生的信息-关于2型糖尿病逆转治疗技术分析.docx
- IOS-XR,A9K,CRS,76知识相关技术分析.docx
- iPad_mini你必须知道的使用技巧_15个技术分析.docx
- 中国国家标准 GB/T 15445.3-2025粒度分析结果的表述 第3部分:试验曲线的参考模型拟合.pdf
- 《GB/T 15445.3-2025粒度分析结果的表述 第3部分:试验曲线的参考模型拟合》.pdf
- 中国国家标准 GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输.pdf
- 《GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输》.pdf
- GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输.pdf
- 中国国家标准 GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池.pdf
- 《GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池》.pdf
- GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池.pdf
- 中国国家标准 GB/Z 106-2025质量管理体系 组织变革管理 过程.pdf
- GB/Z 106-2025质量管理体系 组织变革管理 过程.pdf
原创力文档


文档评论(0)