2016决策树算法.pptVIP

  • 17
  • 0
  • 约5.21千字
  • 约 36页
  • 2016-11-23 发布于北京
  • 举报
2016决策树算法

该检验所获得的信息系数F(F=13/14)修正:   Gain(x1)=13/14(0.961-0.747)=0.199 该值比上个例子的值0.216小。然后,该分区信息仍是根据整个训练集来确定的,而且更大,因为对未知值有一个额外的类别。 Split-info(xi) =-(5/14log(5/14)+3/14log(3/14) +5/14log(5/14)+1/14log(1/14))=1.876 另外,每个样本都有一个相关的新参数,即概率。显然,当一个值已知的样本从T分配给Ti时,它属于Ti的概率是1,属于其他所有子集的概率是0。 当一值是未知时,只能得出不稳定的概率描述。因此C4.5和每个子集Ti中的每个样本是用权重w联系起来的,它表示属于每个子集的样本概率。 为了使该解决方法更具一般性,必须认为分区前样本的概率并不总是等于1。因此,分区后丢失值的新参数wnew为: wnew=wold·P(Ti) 对于属性1的检验x1分区结果,丢失值的记录将被表示在3个子集中。如图7-7所示。 因为最初的(旧的)w值等于1,新的权值wi等于概率5/13,3/13,和5/13。在C4.5中,Ti的算式如下: |T1|=5+5/13, |T2|=3+3/13, |T3|=5+5/13 对

文档评论(0)

1亿VIP精品文档

相关文档