Clementine 第四讲.ppt

Clementine第四讲概要1

信息增益率: 如何评价数值型输入变量消除平均不确定性的能力 首先分箱: Clementine的C5.0节点包含了MDLP分箱算法 然后再根据上述方法判定 C5.0:生长算法 如何从分组变量的众多取值中找到最佳分割点 默认策略: 对分类型分组变量:有k个类别,将样本分成k组,形成树的k个分支 对数值型分组变量:以MDLP分箱所得的最小组限值为界,将小于组限的样本划为一组,大于的划为另一组,形成两个分叉 其他策略: ChiMerge分箱法,合并分组变量的多个类别后再分支 C5.0:生长算法 ChiMerge分箱:有指导的分箱方法,基本思路: 将输入变量按变量值升序排序 定义初始区间,将输入变量值分成若干组 C5.0:生长算法 ChiMerge分箱基本思路: 计算输入变量相邻两组与输出变量的列联表 在列联表的基础上计算卡方观测值 观测值小于临界值,输入变量在该相邻区间上的划分对输出变量取值没有显著影响,应合并。首先合并卡方观测值最小的区间。 重复以上,直到任何两个相临组无法合并,即卡方观测值都不小于临界为止。 C5.0:剪枝算法 采用后修剪方法,从叶节点向上逐层剪枝,关键: 误差的估计、剪枝标准的设置 误差估计:利用统计学置信区间的估计方法,直接在训练样本集上估计误差 Clementine中1-?默认75%。置信度用于控制剪枝的程度,决定了所允许的误差上限 C5.0:剪枝算法 剪枝标准:“减少-误差(reduce -error)”法 k为待剪子树中叶节点的个数,pi为第i个叶节点所含样本占子树所含样本的比例,ei为第i个叶节点的估计误差,e为父节点的估计误差 C5.0:剪枝算法 例:能否剪掉C节点下的3个叶节点(E、F、G) 估计3个节点的误差:0.55、0.91、0.55 加权求和: 计算C节点的误差估计:0.50 可剪掉叶节点E、F、G 第一个数字是本节点所含样本量N,第二个数为错判样本数E C5.0的应用举例 以Students.xls为例,目标:研究哪些因素是显著影响学生是否参与社会公益活动的因素 变量重要性的测度(Calculate variable importance) Propensity Scores(valid only for flag targets):计算变量的倾向性得分 Calculate raw propensity scores:基于训练样本集计算分类模型给出预测值为真的概率 置信度:经拉普拉斯调整后的结果 N(t)是节点t包含的样本量 Nj(t) 是节点t包含第j类的样本量 k是输出变量的类别个数 C5.0的推理规则集 决策树对逻辑关系的表述并非是最简洁的 IF a AND b THEN yes ELSE IF c AND d THEN yes OTHERWISE no 推理规则集的生成算法 PRISM(Patient Rule Induction Space Method,Cendrowska,1987),“覆盖”算法,规则在训练样本集上100%正确 基本思路:确定输出变量的某个类别为期望类别 在当前样本范围内,寻找能最大限度“覆盖”期望类别样本的推理规则 在M个样本范围内,按照正确覆盖率最大原则确定附加条件,得到一个再小些的样本范围,直到推理规则不再“覆盖”属于期望类别外的样本 从当前样本集合中剔除已经被正确“覆盖”的样本,检查剩余样本中是否还有属于期望类别的样本。如果有则回到第一步。否则结束。 年龄段=A(2/5),年龄段=B(4/4),年龄段=C(3/5),性别=0(6/8),性别=1(3/6),推理规则为:IF 年龄段=B THEN 是否购买=yes。剔除已被正确覆盖的4个样本 年龄段=A(2/5),年龄段=C(3/5),性别=0(4/6),性别=1(1/4),推理规则为:IF 性别=0 THEN 是否购买=yes 需附加逻辑与条件,样本范围为表中灰色部分。 年龄段=A(1/3),年龄段=C(3/3)。推理规则修正为: IF 性别=0 AND 年龄段=C THEN 是否购买=yes Yes为期望类别 C5.0其他:损失矩阵 不同错误类型所造成的实际损失可能不同,置信度会影响决策,错判损失同样会影响决策 损失矩阵 使用损失矩阵的策略: 数据建模型阶段使用损失矩阵 样本预测时使用损失矩阵 C5.0其他:损失矩阵 C5.0对损失矩阵的使用 剪枝时采用“减少-损失”法,判断待剪子树中叶节点的加权损失是否大于父层节点的损失,如果大于则可以剪掉 C5.0其他:损失矩阵 损失矩阵对预测的影响: c(i|j)是损失矩阵中将j类错判为i类的损失,p(j|t)是被节点t判为j类的归一化概率,定义为: 例如:   预测值 1 2 3 实际

文档评论(0)

1亿VIP精品文档

相关文档