SPSSAU_机器学习_决策树.pdf

下载文档

5
0
约1.06万字
约 8页
2024-09-04 发布于江苏
举报
版权申诉
保障服务

SPSSAU_机器学习_决策树.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SPSSAU-在线SPSS分析软件

决策树模型DecisionTreeSPSSAU

决策树模型

Contents

1背景2

2理论2

3操作3

4SPSSAU输出结果4

5文字分析4

6剖析7

决策树(DecisionTree)常用于研究类别归属和预测关系的模型，比如是否抽烟、是否喝酒、

年龄、体重等4项个人特征可能会影响到‘是否患癌症’，上述4项个人特征称作‘特征’，也即自

变量（影响因素X），‘是否患癌症’称为‘标签’，也即因变量（被影响项Y）。决策树模型时，其

可首先对年龄进行划分，比如以70岁为界，年龄大于70岁时，可能更容易归类为‘患癌症’，

接着对体重进行划分，比如大于50公斤为界，大于50公斤时更可能划分为‘患癌症’，依次循

环下去，特征之间的逻辑组合后（比如年龄大于70岁，体重大于50公斤），会对应到是否患癌

症这一标签上。

决策树是一种预测模型，为让其有着良好的预测能力，因此通常需要将数据分为两组，分

别是训练数据和测试数据。训练数据用于建立模型使用，即建立特征组合与标签之间的对应关

系，得到这样的对应关系后（模型后），然后使用测试数据用来验证当前模型的优劣。通常情况

下，训练数据和测试数据的比例通常为9:1,8:2,7:3,6:4或者5:5（比如9:1时指所有数据中90%

作为训练模型使用，余下10%作为测试模型好坏使用）。具体比例情况似研究数据量而定无固

定标准，如果研究数据较少，比如仅几百条数据，可考虑将70%或者60%，甚至50%的数据用

于训练，余下数据用于测试。上述中包括模型构建和模型预测两项，如果训练数据得到的模型

优秀，此时可考虑将其进行保存并且部署出去使用（此为计算机工程中应用，SPSSAU暂不提

供）；除此之外，当决策树模型构建完成后可进行预测，比如新来一个病人，他是否会患癌症及

患癌症的可能性有多高。

决策树模型可用于特征质量判断，比如上述是否抽烟、是否喝酒、年龄、体重等4项，该

四项对于‘是否患癌症’的预测作用重要性大小可以进行排名用于筛选出最有用的特征项。

决策树模型的构建时，需要对参数进行设置，其目的在于构建良好的模型（良好模型的标

准通常为：训练数据得到的模型评估结果良好，并且测试数据时评估结果良好）。需要特别注意

一点是：训练数据模型评估结果可能很好（甚至准确率等各项指标为100%），但是在测试数据

上评估结果确很糟糕，此种情况称为‘过拟合’。因而在实际研究数据中，需要特别注意此种情

况。模型的构建时通常情况下参数设置越复杂，其会带来训练数据的模型评估结果越好，但测

试效果却很糟糕，因而在决策树构建时，需要特别注意参数的相关设置，接下来会使用案例数

据进行相关说明。

SPSSAU-在线SPSS分析软件

决策树模型案例

Contents

1背景2

2理论2

3操作3

4SPSSAU输出结果4

5文字分析4

6剖析7

1背景

使用经典的‘鸢尾花分类数据集’进行案例演示，其数据集为150个样本，包括4个特征属

性（4个自变量X），分别是花萼长度，花萼宽度，花瓣长度，花瓣宽度，标签为鸢尾花卉类

别，共包括3个类别分别是刚毛鸢尾花、变色鸢尾花和弗吉尼亚鸢尾花（下称A、B、C三

类）。

2理论

决策树模型的原理上，其第1步是找出最优的特征和其分割点，比如影响是否患癌症的特

征最可能是年龄，并且分割点可能是70岁，小于70岁可能归为‘不患癌症’，70岁及以上可能

归为‘患癌症’。此第1步时会涉及到2个专业名词，分别是‘节点分裂标准’和‘节点划分方式’。

第2步是找出次优的特征和其分割点，继续进行拆分。一直循环下去。

关于决策树模型时，通常涉及到以下参数值，如下：

参数说明参数值设置

节点分裂标准用于在构建决策树时产生分枝的gini:默认，gini系数，计算速度

依赖标准。

您可能关注的文档

文档评论（0）

147****4623 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

SPSSAU_机器学习_决策树.pdf