- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持向量机(support vector machine, SVM)是数据挖掘中由Vapnil等于1995年提出的一项新技术,它是借助最优化方法解决机器学习问题的新工具。SVM以结构风险最小化为原则,它的本质是求解凸二次规划问题,在解决小样本、非线性和高维模式分类问题中有较大优势。SVM有泛化能力强的特点,利用SVM方法还可避免其他方法可能造成的维数灾难,所以一经提出,便引起了广泛关注。
支持向量机是用于分类和回归的有监督的学习方法,传统的分类学习方法强调的是降维,而支持向量机的基本原理是升维。SVM通过非线性映射将低维特征空间中不可分的数据变换到高维线性可分的特征空间中,从高维的线性空间中获得一种最优的线性分类面。非线性空间转换为高维线性空间主要是通过合适的内积函数(核函数)来实现的。常用的核函数包括:多项式核函数,径向内积核函数,Sigmoid核函数等。
2核函数
SVM通过核函数将低维不可分的空间特征映射到高维线性可分的特征空间中,然后再进行线性分类。因此,核函数的选择往往是决定SVM非线性分类性能的关键。SVM是由训练样本集和核函数完全描述的,采用不同的核函数k(xi,xj)可以构造输入空间中不同类型的非线性决策面,也可导致训练支持向量机的算法不同。在实际问题中,通常是直接给出核函数。目前研究最多、最常用的核函数有:
(1)线性核函数 k(xi,x)=(xi,x)
(2)多项式核函数 k(xi,x)=((xi,x)+1)q q是参数
(3)Sigmoid核函数 k(xi,x)=ranh(v(xi,x)+c)
(4)径向基核函数 K(x,xi)=exp{-(|x-xi|2)/ δ2}
二次规划求解中。由于核函数的重要性,如何去构造、选择核函数及参数成为SVM分类器训练的重中之重。核函数一旦被确定,那么对于SVM分类器而言就只有一个参数可以调整,那就是惩罚函数C。确定参数C一般有三种方法。(1)通过求解一个无约束问题来寻求其最优值;(2)采用类似于K折交叉确认的方式,适当选定所有参数各自的一个选值区间,分别在各自区间内离散地配对取值,然后在测试集上比较相应的K折交叉确认误差,达到最小误差时对应的参数值即为最优的参数选择,又称网格筛选法;(3)用遗传算法来求最优参数值。这些方法中第二种方法比较常用。
3分类器评价
分类器的评价是分类器设计的最后阶段,是数据挖掘中最重要的步骤之一。它能决定是否采用某种学习方法,还可以用于指导分类器的生成。 某一分类方法在训练集上表现出很好的分类能力,但这不代表这一方法在新的数据集合中任然有如此好的表现,所以在分类器评价时需要一种能够预测该分类方法在实践中的表现好坏非评价手段。 在做分类器评价时,我们需要一组没有参与分类器建立的数据集作为测试集合(test set)。如果训练数据很充足,可以取一个较大的样本集合来做训练,取另一个不同于训练集合的大样本数据作为测试集合;但当数据样本不够大的时候,如何利用有限的数据,这就比较的难了。
对于有限的样本集合构建训练集合测试集的主要方法有:交叉验证,受试者工作曲线。交叉验证是统计分析中评估分类模型应用水平的一个独立验证数据集预测效果的技术。应用交叉验证的方法可以估计分类器在实践中的预测分类的精确度。一般交叉验证是将原有的数据集合分成两部分数据子集来评价和比较不同分类方法的分类效能。这两部分数据一部分是用于训练器学习的训练集合,另一部分则作为验证的验证集合。常用的交叉验证方法有:保持验证、K折交叉验证、留一法交叉验证。受试者工作特征曲线(ROC )是显示分类模型中敏感性和特异性之间折中的一个可视化工具。通过对ROC曲线的分析可以得到最优分类器。
正确率=(TP+TN)/(TP+FN+FP+TN)x 100%
敏感度(TPR)=TP/(TP+FP)x 100%
特异度=TN/(FN+TN)x 100%=1-FPR
在绘制ROC曲线时,以FPR为横轴,以TPR为纵轴,以曲线下的面积AUC
来衡量分类效能的好坏,当AUC在0.5 ~ 0.7时有较低准确性,AUC在0.7~0.9
时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明分类方法
完全不起作用,无使用价值。
4实现SVM的软件
目前实现支持向量机的软件和程序有很多种,有用Matlab编写的,Java语言编写的,c/c++编写的等各种版本,实现的功能都大同小异。本文中所有的SVM训效的SVM模式识别分类和回归的软件包。LIBSVM软件包包括:JAVA, MATLAB,PYTHON, WINDOWS等多个语言及运行环境的应用版本。该软件包对SVM所涉及的参数调节相对简单,提供了很多默认参数
您可能关注的文档
最近下载
- 人口信息查询申请表(表格).docx VIP
- 糖尿病患者相关认知功能障碍诊治专家共识(2025版).pptx VIP
- 2024-2025学年厦门一检初三数学试卷及答案.pdf VIP
- ISO15614-1 2017 金属材料焊接工艺规程及评定(中文版).docx VIP
- 四川省广元市2024-2025学年高二上学期期末质量监测 化学试题.docx VIP
- ELENESSAVFGL三菱无机房轿顶站调试资料.doc VIP
- 数字化素养的培养.pptx VIP
- 步进式加热炉设计计算.pdf VIP
- 丰润达8+1百兆非网管poe交换机ps5081说明书.docx VIP
- 屋面防水保护层专项施工方案.docx VIP
原创力文档


文档评论(0)