- 5
- 0
- 约4.23千字
- 约 10页
- 2021-12-05 发布于天津
- 举报
clementine 决策树分类模型
.基于决策树模型进行分类的基本原理概念
分类就是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确 的描述或者模型。由此生成的类描述用来对未来的测试数据进行分类。
数据分类是一个两步过程 : 第一步,建立一个模型 ,描述预定的数据类集或概念集; 第二步,使用模型进行分类。
clementine 8.1 中提供的回归方法有两种: C5.0(C5.0 决策树)和 Neural Net (神经网络) 。 下面的例子主要基于 C5.0 决策树生成算法进行分类。 C5.0 算法最早 (20 世纪 50 年代 )的算法是 亨特 CLS(Concept Learning System) 提出,后经发展由 J R Quinlan 在 1979 年提出了著名的 ID3 算法,主要针对离散型属性数据; C4.5 是 ID3 后来的改进算法,它在 ID3 基础上增加了:对连 续属性的离散化; C5.0 是 C4.5 应用于大数据集上的分类算法, 主要在执行效率和内存使用方面 进行了改进。优点:在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训 练次数进行估计;比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;也提 供强大的增强技术以提高分类的精度。
二 . 范例说明
该范例的背景是客户详细的个人投资计划作为一种市场营销活动的结果, snapshottrainN.db (训练数据)描述的是不同 age (年龄),不同 sex (性别),不同 region( 地 域),不同 income( 收入) ,不同 married( 婚姻 ),等等的数据,通过分类算法对训练数据进行建 模得到决策树模型,通过得到的决策树模型来判断测试数据集( snapshottestN.db )里面的每 个记录的 pep( 个人投资计划 )属性是 yes 还是 no 。使用 clementine 建立流程图,如图 1 所示:
画y
Table
图1总流程图
Talhlp
Egp站rtftgM 日b
.数据集说明
数据集snapshottrainN.db,以下是该数据集的所有字段名:
? id.唯一的识别号
? age.年龄
? sex.性别
? regio n.地理位置
? in come.收入
? merried.是否已婚
? children.有几个孩子
? car.是否有汽车
? save_act.是否有储蓄账户
? curre nt_act.是否有活期存款
? mortgage.是否有抵押
? pep.是否有个人投资计划
四.训练模型
Table
snapsriflHrainN db
pep
Amalysiis
图2训练模型
图3
图3输入节点
导入数据及预处理
插入一个变项文件节点(
的物理路径,如图 3所示:
SourceVar.File),双击该节点,在 File 框输入 snapshottrainN.db
?
Var. File
变量类型的定义及实例化
在建模之前,我们首先将一个类型节点 Type Node加到目前的流程中。点击 Read Values以 读取数据。因为需要用年龄,性别,地区,收入等等为引数来估计个人投资计划,所以将 id的
Direction设为None”,将pep设为Out”,其他字段设为In”。如图4所示:
Type? Tjne? ValuesjiarVakJtsClear All ValuesField
Type
? Tjne
? Values
jiarVakJts
Clear All Values
Field
Tyrp
Missing
thRCk
Drecfion
区]忙
乌 Typeles5
None
◎ Nonie
Range
W7]
Hons
\ln
id sex
MALE/FE,.
none
、ir
|a] region
鬲s直
INNER,.-
Hone
、Ir
第 incornt
歹 Ranos
(5(11 i 21.
Nons
、lr
国 marriigd
g F|?g
YES/NO
Mong
\ In
children
护 Range
g
Hons
、Ir
|] car
OS Fiac
YES/NU
none
、ir
阖 sa^e_sct
ys Fleg
YES/NC
Hone
、Ir
|Aj rurrfin1_A^
is FIsq
YESriJO
Nons
、Ir
|A1 rroi-lgage
us F|祁
YESKNO
Mcne
\ In
[a] P 郎
* Flag
YES/NO
Mans
◎ Cui
图4 Type节点
查看数据源
通过一个Table节点(OutputTable )与源数据连接, Excute (执行)Tab
原创力文档

文档评论(0)