- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
SPSSAU-在线SPSS分析软件
支持向量机supportvectormachinesSVMSPSSAU
支持向量机模型
Contents
1背景2
2理论2
3操作4
4SPSSAU输出结果4
5文字分析5
6剖析6
支持向量机(supportvectormachines,SVM)是一种二分类模型,所谓二分类模型是指比
如有很多特征(自变量X)对另外一个标签项(因变量Y)的分类作用关系,比如当前有很多
特征,包括身高、年龄、学历、收入、教育年限等共5项,因变量为‘是否吸烟’,‘是否吸烟’仅
包括两项,吸烟和不吸烟。那么该5个特征项对于‘是否吸烟’的分类情况的作用关系研究,则
称为‘二分类模型’,但事实上很多时候标签项(因变量Y)有很多个类别,比如某个标签项Y为
‘菜系偏好’,中国菜系有很多,包括川菜、鲁菜、粤菜、闽菜、苏菜、浙菜、湘菜和徽菜共计8
类,此时则需要进行‘多分类决策函数’转化,简单理解为两两类别(8个中任意选择2)分别建
立SVM模型,然后进行组合使用。
机器学习算法常见算法中包括决策树、随机森林、贝叶斯等,上述均有良好的可解释性,
比如决策树是将特征按分割点不停地划分出类别,随机森林是多个决策树模型,贝叶斯模型是
利用贝叶斯概率原理进行计算。与上述不同,支持向量机模型是利用运筹规划约束求最优解,
而此最优解是一个空间平面,此空间平面可以结合特征项,将‘吸烟’和‘不吸烟’两类完全地分
开,寻找该空间平面即是支持向量机的核心算法原理。
支持向量机的计算原理复杂,但对其通俗地理解并不复杂,只需要知道其需要求解出‘空间
平面’,该‘空间平面’可以把不同的标签项(因变量Y)类别特别明显的划分开即可。类似其它机
器学习算法,支持向量机的构建步骤上,一般也需要先对数据进行量纲化处理、设置训练数据
和测试数据比例、设置相关参数调优,最终实现在训练数据上有着良好表现,并且测试数据上
也有着良好表现即可。
SPSSAU-在线SPSS分析软件
支持向量机模型案例
Contents
1背景2
2理论2
3操作4
4SPSSAU输出结果4
5文字分析5
6剖析6
1背景
本部分支持向量机使用的‘鸢尾花分类数据集’进行案例演示,其共为150个样本,包括4
个特征属性(4个自变量X),以及标签(因变量Y)为鸢尾花卉类别,共包括3个类别分别是
刚毛鸢尾花、变色鸢尾花和弗吉尼亚鸢尾花(下称A、B、C三类)。
2理论
支持向量机模型的原理上,其可见下图。
比如红色表示“吸烟”,黄色表示“不吸烟”,那么如何找到一个平面最大化的将两类群体分
开,如上图所示,分开有很多种方式,左侧也可以分开,右侧也能分开。但明显的,右侧会“分
的更开”,因而如何寻找到这样的一个空间平面,让标签项各类别最为明显的分开,此算法过程
即为支持向量机。将点分开时,离平面最近的点要尽可能的远,比如右侧时A点和B点离平面
最近,那么算法需要想办法让该类点尽可能地远离平面,这样就称为“分的更好”。左侧时挨着
平面最近的两个点离平面太近,所以右侧的分类更好。
与此同时,理论上可以找到‘空间平面’,将点彻底完全地分开,但此种情况并没有用,因
为它只是数学上彻底地分开,但对真实数据业务并没有帮助,与此同时,数学计算上如果尽可
能地让点分开,那么很容易出现‘过拟合’现象,即训练数据时模型构建完美,但测试数据上的
表现糟糕,因而通过可对此类情况进行惩罚,即设置‘误差项惩罚系数值’。另外,为构建出空
SPSSAU-在线SPSS分析软件
间平面,还需要使用到非线性函数,SVM模型时称‘核函数’,其用用于将特征从低维(比如二维
XY轴平面)向高维空间转换,并且对其进行一定参数设置,以寻找较优模型。
结合支持向量机的原理情况,其涉及以下参数,如下:
参数说明参数值设置
误差项惩罚系数
文档评论(0)