Clementine 第四讲.ppt

下载文档 降价啦

53
0
约5.11千字
约 44页
2017-07-02 发布于湖北
举报
保障服务

Clementine 第四讲.ppt

Clementine第四讲概要1

信息增益率：如何评价数值型输入变量消除平均不确定性的能力首先分箱： Clementine的C5.0节点包含了MDLP分箱算法然后再根据上述方法判定 C5.0：生长算法如何从分组变量的众多取值中找到最佳分割点默认策略：对分类型分组变量：有k个类别，将样本分成k组，形成树的k个分支对数值型分组变量：以MDLP分箱所得的最小组限值为界，将小于组限的样本划为一组，大于的划为另一组，形成两个分叉其他策略： ChiMerge分箱法，合并分组变量的多个类别后再分支 C5.0：生长算法 ChiMerge分箱：有指导的分箱方法，基本思路：将输入变量按变量值升序排序定义初始区间，将输入变量值分成若干组 C5.0：生长算法 ChiMerge分箱基本思路：计算输入变量相邻两组与输出变量的列联表在列联表的基础上计算卡方观测值观测值小于临界值，输入变量在该相邻区间上的划分对输出变量取值没有显著影响，应合并。首先合并卡方观测值最小的区间。重复以上，直到任何两个相临组无法合并，即卡方观测值都不小于临界为止。 C5.0：剪枝算法采用后修剪方法，从叶节点向上逐层剪枝，关键：误差的估计、剪枝标准的设置误差估计：利用统计学置信区间的估计方法，直接在训练样本集上估计误差 Clementine中1-?默认75%。置信度用于控制剪枝的程度，决定了所允许的误差上限 C5.0：剪枝算法剪枝标准：“减少－误差（reduce -error）”法 k为待剪子树中叶节点的个数，pi为第i个叶节点所含样本占子树所含样本的比例，ei为第i个叶节点的估计误差，e为父节点的估计误差 C5.0：剪枝算法例：能否剪掉C节点下的3个叶节点（E、F、G）估计3个节点的误差：0.55、0.91、0.55 加权求和：计算C节点的误差估计：0.50 可剪掉叶节点E、F、G 第一个数字是本节点所含样本量N，第二个数为错判样本数E C5.0的应用举例以Students.xls为例，目标：研究哪些因素是显著影响学生是否参与社会公益活动的因素变量重要性的测度(Calculate variable importance) Propensity Scores(valid only for flag targets)：计算变量的倾向性得分 Calculate raw propensity scores：基于训练样本集计算分类模型给出预测值为真的概率置信度：经拉普拉斯调整后的结果 N(t)是节点t包含的样本量 Nj(t) 是节点t包含第j类的样本量 k是输出变量的类别个数 C5.0的推理规则集决策树对逻辑关系的表述并非是最简洁的 IF a AND b THEN yes ELSE IF c AND d THEN yes OTHERWISE no 推理规则集的生成算法 PRISM（Patient Rule Induction Space Method，Cendrowska，1987），“覆盖”算法，规则在训练样本集上100％正确基本思路：确定输出变量的某个类别为期望类别在当前样本范围内，寻找能最大限度“覆盖”期望类别样本的推理规则在M个样本范围内，按照正确覆盖率最大原则确定附加条件，得到一个再小些的样本范围，直到推理规则不再“覆盖”属于期望类别外的样本从当前样本集合中剔除已经被正确“覆盖”的样本，检查剩余样本中是否还有属于期望类别的样本。如果有则回到第一步。否则结束。年龄段=A(2/5)，年龄段=B(4/4)，年龄段=C(3/5)，性别=0(6/8)，性别=1(3/6)，推理规则为：IF 年龄段=B THEN 是否购买=yes。剔除已被正确覆盖的4个样本年龄段=A(2/5)，年龄段=C(3/5)，性别=0(4/6)，性别=1(1/4)，推理规则为：IF 性别=0 THEN 是否购买=yes 需附加逻辑与条件，样本范围为表中灰色部分。年龄段=A(1/3)，年龄段=C(3/3)。推理规则修正为： IF 性别=0 AND 年龄段=C THEN 是否购买=yes Yes为期望类别 C5.0其他：损失矩阵不同错误类型所造成的实际损失可能不同，置信度会影响决策，错判损失同样会影响决策损失矩阵使用损失矩阵的策略：数据建模型阶段使用损失矩阵样本预测时使用损失矩阵 C5.0其他：损失矩阵 C5.0对损失矩阵的使用剪枝时采用“减少－损失”法，判断待剪子树中叶节点的加权损失是否大于父层节点的损失，如果大于则可以剪掉 C5.0其他：损失矩阵损失矩阵对预测的影响： c(i|j)是损失矩阵中将j类错判为i类的损失，p(j|t)是被节点t判为j类的归一化概率，定义为：例如：　预测值 1 2 3 实际

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Clementine 第四讲.ppt