第5章数据分类决策树.pptVIP

下载本文档

7
0
约8.56千字
约 65页
2019-04-05 发布于湖北
举报

第5章数据分类决策树.ppt

现在考虑T被分区之后的一个相似度量标准，T按照一个属性检验X的几个输出进行分区。所需信息可通过这些子集的熵的加权和求得： n Info x(T)＝－Σi=1 ((|Ti| /|T|).info(Ti)) 信息增益的计算公式： Gain(X) = Info(T) - Info x(T) 通过计算求出具有最高增益的属性。以下分析有关度量标准的应用和创建决策树的一个简单例子，假设以平面文件形式给出的数据集T，其中有14个样本，通过3个输入属性描述且属于所给的两个类之一：类1或类2。类1 假 96 C 类1 假 80 C 类1 假 80 C 类2 真 70 C 类2 真 80 C 类1 假 75 B 类1 真 65 B 类1 假 78 B 类1 真 90 B 类1 假 70 A 类2 假 95 A 类2 假 85 A 类2 真 90 A 类1 真 70 A 属性4 属性3 属性2 属性1 数据库T：训练例子的简单平面数据库其中：9个样本属于类1，5个样本属于类2，因此分区前的熵为： info(T)＝ -9/14.log2(9/14) -5/14.log2(5/14) = 0.940比特根据属性1把初始样本集分区成3个子集（检验x1表示从3个值A，B或C中选择其一）后，得出结果： Info x1(T)＝5/14（-2/5 log2(2/5) -3/5 log2(3/5

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第5章数据分类决策树.pptVIP