分类与回归解说.pptVIP

下载本文档

15
0
约3.74千字
约 30页
2017-05-13 发布于湖北
举报

分类与回归解说.ppt

分类树与回归树分析 ——决策树分类决策树的基本概念：分类：决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。一般的数据挖掘工具，允许选择分裂条件和修剪规则，以及控制参数（最小节点的大小，最大树的深度等等）来限制决策树的过拟合（overfiting)。过程：通过递归分割的过程构建决策树。寻找初始分裂：整个训练集作为产生决策树的集合，训练集每个记录必须是已经分好类的。决定哪个属性（Field）域作为目前最好的分类指标。一般的做法是穷尽所有的属性域，对每个属性域分裂的好坏做出量化，计算出最好的一个分裂。量化的标准是计算每个分裂的多样性（diversity）指标GINI指标。生成一棵完整的树：重复第一步，直至每个叶节点内的记录都属于同一类。数据的修剪：不同的算法有不同修剪规则（修剪成大小合适的树）。 ①CHAID（Chi-squared Automatic Interaction Detector），由Kass于1980年提出，其核心思想是：根据给定的结果变量（即目标变量）和经过筛选的特征指标（即预测变量）对样本进行最优分割，按照卡方检验的显著性进行多元列联表的自动判断分组。其分类过程是：首先选定分类的目标变量，然后用分类指标与结果变量进行交叉分类，产生一系列二维分类表，分别计算二维分类表的χ2值，比

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

分类与回归解说.pptVIP