分类与回归解说.pptVIP

  • 15
  • 0
  • 约3.74千字
  • 约 30页
  • 2017-05-13 发布于湖北
  • 举报
分类树与回归树分析 ——决策树分类 决策树的基本概念: 分类:决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等)来限制决策树的过拟合(overfiting)。 过程:通过递归分割的过程构建决策树。 寻找初始分裂:整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。 生成一棵完整的树:重复第一步,直至每个叶节点内的记录都属于同一类。 数据的修剪:不同的算法有不同修剪规则(修剪成大小合适的树)。 ①CHAID(Chi-squared Automatic Interaction Detector),由Kass于1980年提出,其核心思想是:根据给定的结果变量(即目标变量)和经过筛选的特征指标(即预测变量)对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。其分类过程是:首先选定分类的目标变量,然后用分类指标与结果变量进行交叉分类,产生一系列二维分类表,分别计算二维分类表的χ2值,比

文档评论(0)

1亿VIP精品文档

相关文档