树课件.pptVIP

  • 43
  • 0
  • 约6.77千字
  • 约 60页
  • 2017-12-01 发布于湖北
  • 举报
决策树课件

* 效益评价:收益评价(单个节点) 响应%和收益%:意味追求高响应%吗? 低响应%和低收益%的规则,不理想 例:甲壳虫人群100人,90人购买,10不购买 IF 年轻富婆 THNE 买 10人,响应%=100%(高),收益%=10/90(低) 90人,响应%=70%(中低),收益%=63/90(高) 高响应%和低收益%的规则,可能是没有意义的 低响应%和高收益%的规则,可能是值得的 * 效益评价:收益评价(单个节点) 响应%和收益%:意味追求高响应%吗? 高响应%和高收益%的规则,可能并没有太多价值 * 效益评价:收益评价(单个节点) 收益评价指标 【指数(%)】:节点的响应(%)是同类别样本占总样本比例的百分之几倍,称为提升度(lift)(价值) * 效益评价:利润评价(单个节点) 总体利润:正利润和负利润(针对输出变量所有类别计算) 定义单位利润 利润评价指标 【利润:】:节点的平均利润 【投资回报率】:总利润/总投资 【指数(%)】:节点的投资回报率是总投资回报率的倍数 * 效益评价(整体) 累计收益图:横坐标分位点,纵坐标累计收益(%) 累计响应图:横坐标分位点,纵坐标累积响应(%) 累计提升图:横坐标分位点,纵坐标累计提升度 累计利润图:横坐标分位点,纵坐标累积利润 累计投资回报率图:横坐标分位点,纵坐标累积ROI * 决策树说明 决策树算法在处理不同类型数据时的优势和劣势 数值型的优势和劣势 不受数量级的影响 忽略分布特征 分类型的优势和劣势 建树效率高 类别较多时,树太茂盛 容易处理“混合类型”的输入变量 * 信息增益率: 如何评价数值型输入变量消除平均不确定性的能力 首先分箱: Clementine的C5.0节点包含了MDLP分箱算法 然后再根据上述方法判定 C5.0:生长算法 * 如何从分组变量的众多取值中找到最佳分割点 默认策略: 对分类型分组变量:有k个类别,将样本分成k组,形成树的k个分支 对数值型分组变量:以MDLP分箱所得的最小组限值为界,将小于组限的样本划为一组,大于的划为另一组,形成两个分叉 数值型其他策略: ChiMerge分箱法,合并分组变量的多个类别后再分支 C5.0:生长算法 * C5.0:剪枝算法 采用后修剪方法,从叶节点向上逐层剪枝,关键: 误差的估计、剪枝标准的设置 误差估计:利用统计学置信区间的估计方法,直接在训练样本集上估计误差 Clementine中1-?默认75%。置信度用于控制剪枝的程度,决定了所允许的误差上限 * C5.0:剪枝算法 剪枝标准:“减少-误差(reduce -error)”法 k为待剪子树中叶节点的个数,pi为第i个叶节点所含样本占子树所含样本的比例,ei为第i个叶节点的估计误差,e为父节点的估计误差 * C5.0:剪枝算法 例:能否剪掉C节点下的3个叶节点(E、F、G) 估计3个节点的误差:0.55、0.91、0.55 加权求和: 计算C节点的误差估计:0.50 可剪掉叶节点E、F、G 第一个数字是本节点所含样本量N,第二个数为错判样本数E * C5.0的推理规则集 决策树对逻辑关系的表述并非是最简洁的 IF a AND b THEN yes ELSE IF c AND d THEN yes OTHERWISE no * 推理规则集的生成算法 PRISM(Patient Rule Induction Space Method,Cendrowska,1987),“覆盖”算法,规则在训练样本集上100%正确 基本思路:确定输出变量的某个类别为期望类别 在当前样本范围内,寻找能最大限度“覆盖”期望类别样本的推理规则 在M个样本范围内,按照正确覆盖率最大原则确定附加条件,得到一个再小些的样本范围,直到推理规则不再“覆盖”属于期望类别外的样本 从当前样本集合中剔除已经被正确“覆盖”的样本,检查剩余样本中是否还有属于期望类别的样本。如果有则回到第一步。否则结束。 * 年龄段=A(2/5),年龄段=B(4/4),年龄段=C(3/5),性别=0(6/8),性别=1(3/6),推理规则为:IF 年龄段=B THEN 是否购买=yes。剔除已被正确覆盖的4个样本 年龄段=A(2/5),年龄段=C(3/5),性别=0(4/6),性别=1(1/4),推理规则为:IF 性别=0 THEN 是否购买=yes 需附加逻辑与条件,样本范围为表中灰色部分。 年龄段=A(1/3),年龄段=C(3/3)。推理规则修正为: IF 性别=0 AND 年龄段=C THEN 是否购买=yes Yes为期望类别 * C5.0其他:损失矩阵 不同错误类型所造成的实际损失可能不同,置信度会影响决策,错判损失同样会影响决策 损失矩阵 使用损失矩阵

文档评论(0)

1亿VIP精品文档

相关文档