- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
R语言中SVM实现程序比较.doc
R语言中SVM实现程序比较
摘要:作为目前最流行、最有效的分类和回归方法,支持向量机(英语:Support Vector Machine,常简称为SVM)几乎存在于任何流行的编程语言中。目前在R语言中,有4个软件包可以实现SVM。文本的目的就是介绍和比较这4个软件包。
关键词:支持向量机;R语言
引言
支持向量机理论是基于统计学习理论的简单想法。它的简单性体现在:它作用于输入空间相关的高维非线性特征空间中的数据,对其应用一个简单的线性方法;与此同时,即便我们认为支持向量机是高维空间中的一个线性算法,但事实上,它不涉及任何在高维空间中的运算,这种在许多机器学习问题(分类,回归,和异常检测)中充满艺术性的简单实现形式有助于它自身的推广。本文提醒如下:首先,我们简单介绍支持向量机;紧接着介绍R语言和其它编程语言中,可用的支持向量机实现软件的概述;然后介绍所用的数据集;最后本文提供了R语言中4个软件包运行支持向量机程序耗费时间的测试结果并总结分析4个包的区别。
支持向量机简介
支持向量机(SVM)是一种线性和非线性数据的分类方法,它使用非线性映射将原始数据映射到高维空间中,在该空间内搜索最佳分离超平面。在线性可分的情况下,存在这样的超平面把空间中的类分开,并且该超平面与类的距离最大,该超平面即最大边缘超平面,它等价于求解约束的凸二次最优化问题(在此不详述,详见参考文献),此时是在原输入空间(n维)内寻找最大边缘超平面;在线性不可分的情况下,可以允许个别样本分类错误,但需要借助非线性映射把原输入数据变换到高维空间,在该空间搜索最大边缘超平面(此时是线性的,可用二次最优化求解),将该超平面对应到原输入空间的非线性超平面。然而这个过程中的点积计算量极大,幸而二次最优化求解中含有训练元组的点积等价于核函数作用于原输入数据,这些核函数在原输入空间上产生非线性分类器,利用核函数不仅可以省略变换后数据元组上的点积计算,也避免了这种映射,此时仍在原输入空间计算,因此与非线性映射后的维度相比降低了不少。
软边缘(Soft Margin):即线性不可分情况下,允许个别样本跑到其它类别之中。但要使用参数来权衡两端,一个是要保持最大边缘的分离,另一个要使这种破例不能太离谱。这种参数就是对错误分类的惩罚程度C。
分离超平面(separating hyperplane):即将类进行分离的超平面,这样的超平面很多,而从超平面到其边缘的两侧距离最短且相等的超平面即为最大边缘超平面(Maximal Margin Hyperplane,MMH),它具有更高的泛化准确率,此时MMH到类的最近的训练元组即为支持向量(support vector)。
支持向量是最难分类(临界)的训练元组,给出了最多的分类信息,它定义了间隔及最大边缘超平面。因此,学习后的分类器的复杂度由支持向量数而不是数据维度刻画,SVM也不太容易过分拟合。过拟合的原因与不稳定性密切相关,改动一个或两个训练元组会引起大范围的决策边界的变化,但决策最大边缘超平面则相对比较稳定,只有当被增加或去除的训练元组是支持向量时,边缘才会变动。过度拟合的起因是边缘过分拟合。而支持向量通常只是训练元组中的极小部分,几乎不会发生过分拟合。
即使数据维度很高,具有少量支持向量的SVM可以具有很好的泛化性能。利用支持向量数可计算SVM分类器的期望误差率的上界,同样独立于数据维度。
支持向量机回归(SVR):是由SVM发展出来的回归方法,同样也有线性可分与不可分情况。与SVM的区别在于,目标是使预测误差最小化同时函数平面度最大化。这种权衡是通过设置参数C来控制。参数ε是在回归函数周围定义的一个管道,管道内的误差将被忽略。如果所有的训练元组都在宽度为2ε的管道内,算法输出一个位于最平的管道中央的函数,这个管道包含所有训练元组,这种情况下总误差为0。因此,ε控制了函数与训练元组的拟合程度。支持向量即在管道外或管道边缘的训练元组。
软件介绍
支持向量机目前在广泛的领域得到应用,从生物信息学到天体物理学。现在大部分支持向量机软件使用C或C++编写。例如著名的libsvm,提供了一个强大快速的支持向量机实现方法,在许多分类和回归问题的解决上产生了具有艺术性的结果。SVMlight,SVMTorch,Royal Hol-loway Support Vector Machines,mySVM,and M-SVM等许多软件包提供了MATLAB的接口,也有一些MATLAB的本地的SVM工具包,例如支持向量机和核函数方法MATLAB工具包(SVM and Kernel Methods Matlab Toolbox)或 the MATLAB Support Vector
您可能关注的文档
- MAPK信号通路在肺炎衣原体感染小鼠中的作用.doc
- MDCT对回盲部肿瘤的诊断价值.doc
- MicroRNA―486―5p在头颈部常见恶性肿瘤中的研究进展.doc
- MIPO技术结合LCP治疗胫骨远端骨折.doc
- MIPPO手术治疗pilonⅢ型骨折的临床疗效分析.doc
- miRNA―1和急性心肌梗死后心肌缺血程度的相关性研究.doc
- MLA――促进中澳间肉类及畜牧业合作畅通的桥梁.doc
- MMP―9、TIMP―1的表达与糖尿病合并肺结核发病的关系探讨.doc
- MMP―9、VEGF在婴幼儿血管瘤中的表达及意义.doc
- MMP―9与TIMP―1在复发性流产中的基因表达及相关性研究.doc
- S100B蛋白在颅脑损伤合并其他部位伤中的表达及与患者预后的关系.doc
- SLE患者血清IRF4与疾病活动性指数、抗SSA抗体的相关性分析.doc
- SNH48究竟有多火?揭秘偶像团体新模式.doc
- Snodgrass尿道成形术治疗尿道下裂效果探讨.doc
- Solitaire AB支架辅助弹簧圈栓塞颅内宽颈动脉瘤的临床研究.doc
- SPARK课程提高小学生社会适应能力的实验研究.doc
- SPECT与MRI成像在椎体单发骨转移瘤中的诊断价值.doc
- STMN1蛋白及EPCAM在食管鳞状细胞癌组织中的表达及其在食管鳞状细胞癌侵袭和转移中的作用.doc
- ST导管应用治疗持续房颤的射频消融临床观察.doc
- ST段抬高急性心肌梗死急诊经皮冠状动脉介入治疗术中应用血栓抽吸导管的疗效观察.doc
最近下载
- 锅炉本体检修工职业技能鉴定高级工试题.docx VIP
- 初中数学重点知识点梳理汇总.docx VIP
- [中国青铜器]01.第一章 概论.pdf VIP
- 德国探亲签邀请函中德文对照.docx
- 2024山西太原市古交市招聘劳动保障工作站和社区低保工作站人员笔试历年典型考题及考点剖析附答案带详解.docx VIP
- 2025年高等教育自学考试马克思主义基本原理概论真题及模拟试题汇编.doc VIP
- it审计的组织与实施(培训课件).ppt VIP
- 2025社区两保人员考试真题及答案.doc VIP
- 《春江花月夜》教学设计及课堂镜头.doc VIP
- 肿瘤多学科综合治疗模式与个体化治疗研究进展.docx VIP
文档评论(0)