3第三章决策树很详细的算法介绍.pptVIP

  • 13
  • 0
  • 约3.88千字
  • 约 45页
  • 2016-12-09 发布于重庆
  • 举报
3第三章决策树很详细的算法介绍

* * * * * * * * * * 计算各属性的信息增益 * * 第四步:决策树 * * 案例2:银行违约率 * * * * 案例3 对电信客户的流失率分析 * * 数据仓库 条件属性 类别属性 客户是否流失 案例4:在银行中的应用 * * 案例5:个人信用评级 * * 个人信用评级决策树 (五)其他算法 * C4.5与C5.0算法 Gini Index算法 CART算法 PRISM算法 CHAID算法 * 1、C4.5与C5.0算法 * C5.0算法则是C4.5算法的修订版 ,适用在处理大数据集,采用Boosting(提升)方式提高模型准确率,又称为Boosting Trees,在软件上的计算速度比较快,占用的内存资源较少。 * 类别属性的信息熵 2、Gini Index算法 * ID3 and PRISM适用于类别属性的分类方法。 Gini Index能数值型属性的变量来做分类。着重解决当训练集数据量巨大,无法全部放人内存时,如何高速准确地生成更快的,更小的决策树。 * 集合T包含N个类别的记录,那么其Gini指标就是 如果集合T分成两部分N1 和 N2。则此分割的Gini就是 提供最小Gini split就被选择作为分割的标准(对于每个属性都要经过所有可以的分割方法)。 Gini Index算法 * * 案例:在汽车销售中的应用 * * * * * *

文档评论(0)

1亿VIP精品文档

相关文档