实验3-------决策树资料.docxVIP

  • 5
  • 0
  • 约4.23千字
  • 约 10页
  • 2021-12-05 发布于天津
  • 举报
clementine 决策树分类模型 .基于决策树模型进行分类的基本原理概念 分类就是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确 的描述或者模型。由此生成的类描述用来对未来的测试数据进行分类。 数据分类是一个两步过程 : 第一步,建立一个模型 ,描述预定的数据类集或概念集; 第二步,使用模型进行分类。 clementine 8.1 中提供的回归方法有两种: C5.0(C5.0 决策树)和 Neural Net (神经网络) 。 下面的例子主要基于 C5.0 决策树生成算法进行分类。 C5.0 算法最早 (20 世纪 50 年代 )的算法是 亨特 CLS(Concept Learning System) 提出,后经发展由 J R Quinlan 在 1979 年提出了著名的 ID3 算法,主要针对离散型属性数据; C4.5 是 ID3 后来的改进算法,它在 ID3 基础上增加了:对连 续属性的离散化; C5.0 是 C4.5 应用于大数据集上的分类算法, 主要在执行效率和内存使用方面 进行了改进。优点:在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训 练次数进行估计;比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;也提 供强大的增强技术以提高分类的精度。 二 . 范例说明 该范例的背景是客户详细的个人投资计划作为一种市场营销活动的结果, snapshottrainN.db (训练数据)描述的是不同 age (年龄),不同 sex (性别),不同 region( 地 域),不同 income( 收入) ,不同 married( 婚姻 ),等等的数据,通过分类算法对训练数据进行建 模得到决策树模型,通过得到的决策树模型来判断测试数据集( snapshottestN.db )里面的每 个记录的 pep( 个人投资计划 )属性是 yes 还是 no 。使用 clementine 建立流程图,如图 1 所示: 画y Table 图1总流程图 Talhlp Egp站rtftgM 日b .数据集说明 数据集snapshottrainN.db,以下是该数据集的所有字段名: ? id.唯一的识别号 ? age.年龄 ? sex.性别 ? regio n.地理位置 ? in come.收入 ? merried.是否已婚 ? children.有几个孩子 ? car.是否有汽车 ? save_act.是否有储蓄账户 ? curre nt_act.是否有活期存款 ? mortgage.是否有抵押 ? pep.是否有个人投资计划 四.训练模型 Table snapsriflHrainN db pep Amalysiis 图2训练模型 图3 图3输入节点 导入数据及预处理 插入一个变项文件节点( 的物理路径,如图 3所示: SourceVar.File),双击该节点,在 File 框输入 snapshottrainN.db ? Var. File 变量类型的定义及实例化 在建模之前,我们首先将一个类型节点 Type Node加到目前的流程中。点击 Read Values以 读取数据。因为需要用年龄,性别,地区,收入等等为引数来估计个人投资计划,所以将 id的 Direction设为None”,将pep设为Out”,其他字段设为In”。如图4所示: Type? Tjne? ValuesjiarVakJtsClear All ValuesField Type ? Tjne ? Values jiarVakJts Clear All Values Field Tyrp Missing thRCk Drecfion 区]忙 乌 Typeles5 None ◎ Nonie Range W7] Hons \ln id sex MALE/FE,. none 、ir |a] region 鬲s直 INNER,.- Hone 、Ir 第 incornt 歹 Ranos (5(11 i 21. Nons 、lr 国 marriigd g F|?g YES/NO Mong \ In children 护 Range g Hons 、Ir |] car OS Fiac YES/NU none 、ir 阖 sa^e_sct ys Fleg YES/NC Hone 、Ir |Aj rurrfin1_A^ is FIsq YESriJO Nons 、Ir |A1 rroi-lgage us F|祁 YESKNO Mcne \ In [a] P 郎 * Flag YES/NO Mans ◎ Cui 图4 Type节点 查看数据源 通过一个Table节点(OutputTable )与源数据连接, Excute (执行)Tab

文档评论(0)

1亿VIP精品文档

相关文档