2016决策树算法.pptVIP

下载本文档

17
0
约5.21千字
约 36页
2016-11-23 发布于北京
举报

2016决策树算法.ppt

2016决策树算法

该检验所获得的信息系数F(F=13/14)修正：　　Gain(x1)=13/14(0.961-0.747)=0.199 该值比上个例子的值0.216小。然后，该分区信息仍是根据整个训练集来确定的，而且更大，因为对未知值有一个额外的类别。 Split-info(xi) =-(5/14log(5/14)+3/14log(3/14) +5/14log(5/14)+1/14log(1/14))=1.876 另外，每个样本都有一个相关的新参数,即概率。显然，当一个值已知的样本从T分配给Ti时，它属于Ti的概率是1，属于其他所有子集的概率是0。当一值是未知时，只能得出不稳定的概率描述。因此C4.5和每个子集Ti中的每个样本是用权重w联系起来的，它表示属于每个子集的样本概率。为了使该解决方法更具一般性，必须认为分区前样本的概率并不总是等于1。因此，分区后丢失值的新参数wnew为： wnew=wold·P(Ti) 对于属性1的检验x1分区结果，丢失值的记录将被表示在3个子集中。如图7-7所示。因为最初的(旧的)w值等于1，新的权值wi等于概率5/13,3/13,和5/13。在C4.5中，Ti的算式如下： |T1|=5+5/13, |T2|=3+3/13, |T3|=5+5/13 对

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2016决策树算法.pptVIP