网站大量收购独家精品文档,联系QQ:2885784924

SPSSAU_机器学习_支持向量机.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SPSSAU-在线SPSS分析软件

支持向量机supportvectormachinesSVMSPSSAU

支持向量机模型

Contents

1背景2

2理论2

3操作4

4SPSSAU输出结果4

5文字分析5

6剖析6

支持向量机(supportvectormachines,SVM)是一种二分类模型,所谓二分类模型是指比

如有很多特征(自变量X)对另外一个标签项(因变量Y)的分类作用关系,比如当前有很多

特征,包括身高、年龄、学历、收入、教育年限等共5项,因变量为‘是否吸烟’,‘是否吸烟’仅

包括两项,吸烟和不吸烟。那么该5个特征项对于‘是否吸烟’的分类情况的作用关系研究,则

称为‘二分类模型’,但事实上很多时候标签项(因变量Y)有很多个类别,比如某个标签项Y为

‘菜系偏好’,中国菜系有很多,包括川菜、鲁菜、粤菜、闽菜、苏菜、浙菜、湘菜和徽菜共计8

类,此时则需要进行‘多分类决策函数’转化,简单理解为两两类别(8个中任意选择2)分别建

立SVM模型,然后进行组合使用。

机器学习算法常见算法中包括决策树、随机森林、贝叶斯等,上述均有良好的可解释性,

比如决策树是将特征按分割点不停地划分出类别,随机森林是多个决策树模型,贝叶斯模型是

利用贝叶斯概率原理进行计算。与上述不同,支持向量机模型是利用运筹规划约束求最优解,

而此最优解是一个空间平面,此空间平面可以结合特征项,将‘吸烟’和‘不吸烟’两类完全地分

开,寻找该空间平面即是支持向量机的核心算法原理。

支持向量机的计算原理复杂,但对其通俗地理解并不复杂,只需要知道其需要求解出‘空间

平面’,该‘空间平面’可以把不同的标签项(因变量Y)类别特别明显的划分开即可。类似其它机

器学习算法,支持向量机的构建步骤上,一般也需要先对数据进行量纲化处理、设置训练数据

和测试数据比例、设置相关参数调优,最终实现在训练数据上有着良好表现,并且测试数据上

也有着良好表现即可。

SPSSAU-在线SPSS分析软件

支持向量机模型案例

Contents

1背景2

2理论2

3操作4

4SPSSAU输出结果4

5文字分析5

6剖析6

1背景

本部分支持向量机使用的‘鸢尾花分类数据集’进行案例演示,其共为150个样本,包括4

个特征属性(4个自变量X),以及标签(因变量Y)为鸢尾花卉类别,共包括3个类别分别是

刚毛鸢尾花、变色鸢尾花和弗吉尼亚鸢尾花(下称A、B、C三类)。

2理论

支持向量机模型的原理上,其可见下图。

比如红色表示“吸烟”,黄色表示“不吸烟”,那么如何找到一个平面最大化的将两类群体分

开,如上图所示,分开有很多种方式,左侧也可以分开,右侧也能分开。但明显的,右侧会“分

的更开”,因而如何寻找到这样的一个空间平面,让标签项各类别最为明显的分开,此算法过程

即为支持向量机。将点分开时,离平面最近的点要尽可能的远,比如右侧时A点和B点离平面

最近,那么算法需要想办法让该类点尽可能地远离平面,这样就称为“分的更好”。左侧时挨着

平面最近的两个点离平面太近,所以右侧的分类更好。

与此同时,理论上可以找到‘空间平面’,将点彻底完全地分开,但此种情况并没有用,因

为它只是数学上彻底地分开,但对真实数据业务并没有帮助,与此同时,数学计算上如果尽可

能地让点分开,那么很容易出现‘过拟合’现象,即训练数据时模型构建完美,但测试数据上的

表现糟糕,因而通过可对此类情况进行惩罚,即设置‘误差项惩罚系数值’。另外,为构建出空

SPSSAU-在线SPSS分析软件

间平面,还需要使用到非线性函数,SVM模型时称‘核函数’,其用用于将特征从低维(比如二维

XY轴平面)向高维空间转换,并且对其进行一定参数设置,以寻找较优模型。

结合支持向量机的原理情况,其涉及以下参数,如下:

参数说明参数值设置

误差项惩罚系数

文档评论(0)

147****4623 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档