决策树培训课件.pptxVIP

  • 0
  • 0
  • 约1.2千字
  • 约 60页
  • 2021-10-03 发布于北京
  • 举报
Clementine的决策树;主要内容;决策树算法概述:基本概念;决策树算法概述:特点;决策树算法概述:几何理解;确定每一步特征空间划分标准时,都同时兼顾由此将形成的两个区域,希望划分形成的两个区域所包含的样本点尽可能同时“纯正”;决策树算法概述:核心问题;决策树算法概述:树生长;决策树算法概述:树剪枝;决策树算法概述:树剪枝;C5.0算法;C5.0算法:熵;C5.0算法:熵;C5.0算法:熵;C5.0算法:熵;C5.0算法:熵;C5.0算法:熵;C5.0算法:信息增益;C5.0:生长算法;决策树建立过程中,考察输入变量,如T1:;问题:类别值多的输入变量比类别值少的输入变量有更多的机会成为当前最佳分组变量 ;信息增益率: 如何评价数值型输入变量消除平均不确定性的能力 首先分箱: Clementine的C5.0节点包含了MDLP分箱算法 然后再根据上述方法判定 ;如何从分组变量的众多取值中找到最佳分割点 默认策略: 对分类型分组变量:有k个类别,将样本分成k组,形成树的k个分支 对数值型分组变量:以MDLP分箱所得的最小组限值为界,将小于组限的样本划为一组,大于的划为另一组,形成两个分叉 数值型其他策略: ChiMerge分箱法,合并分组变量的多个类别后再分支 ;C5.0:剪枝算法;C5.0:剪枝算法;C5.0:剪枝算法;C5.0的推理规则集;推理规则集的生成算法;;C5.0其他:损失矩阵;C5.0其他:损失矩阵;C5.0其他:损失矩阵;C5.0其他:N折交叉验证;C5.0其他;C5.0其他:Boosting技术;C5.0其他:Boosting技术;C5.0其他:Boosting技术;C5.0其他:Boosting技术;分类回归树;CART:生长算法;CART:生长算法(分类树);CART:生长算法(分类树);CART:生长算法(回归树);CART:剪枝算法;CART:剪枝算法;{t}的代价复杂度 {t}的子树Tt的代价复杂度;CART:剪枝算法;剪枝过程:产生子树序列T1,T2,T3,…,Tk。T1为最大树,Tk只包含根节点 ?初始为0,无枝可剪 增大?找到 小于?的所有子树中最小值对应的子树,剪掉,计算剪枝后树的代价复杂度值 在当前?值下判断是否仍有小于?的子树,有则依从小到大顺序剪掉,并计算代价复杂度;否则,继续增大?,直到得到Tk 随着?值增大,得到子树序列。它们的复杂度依次降低,但代价复杂???的变化情况并不确定;剪枝过程 选择k个子树中代价复杂度最低的子树,也可以允许考虑误差项;50;CART应用示例;交互建模中的模型评价;效益评价:收益评价(单个节点);效益评价:收益评价(单个节点);效益评价:收益评价(单个节点);效益评价:收益评价(单个节点);效益评价:利润评价(单个节点);效益评价(整体);决策树说明;谢 谢!

文档评论(0)

1亿VIP精品文档

相关文档