大数据经典算法ART 讲解.pptVIP

  • 13
  • 0
  • 约2.98千字
  • 约 22页
  • 2016-12-21 发布于贵州
  • 举报
(第四组)分类与回归树算法(CART) 分类与回归 什么是CART 摘要 Hunt算法 设Dt是与节点t相关联的训练记录集, y={y1,y2,…,yc}是类标号。 Hunt算法的递归定义如下: (1)如果Dt中所有记录都属于同一个类yt,则t是 叶子节点。 (2)如果Dt中包含属于多个类的记录,则选择一 个属性测试条件,将记录划分成较小的子集。 对于测试条件的每一个输出创建一个子女结 点,并根据测试结果将Dt中的记录分布到子 女结点中。然后,对于每个子女结点,递归 调用该算法。 一递归划分自变量空间 决策树 ?如何划分训练记录? ?如何表示属性测试条件? ?如何确定最佳划分? ?如何构建测试条件效果最好的树? 如何确定最佳划分 贪婪法:根据子女结点类分布的一致性程度来 选择最佳划分 度量结点的不纯度 ?Gini ?熵 ?误分类误差 不纯度度量——GINI 对于一个给定的结点t: 是结点t中类j的相对频率 最大值:(1 - 1/nc),记录在所有类中等分布 最小值:0,所有记录属于同一个类 如何划分训练记录 ?根据属性类型的不同: ?标称属性 ? 序数属性 ?连续属性 ?根据分割的数量 ?

文档评论(0)

1亿VIP精品文档

相关文档