第5章数据分类决策树.pptVIP

  • 7
  • 0
  • 约8.56千字
  • 约 65页
  • 2019-04-05 发布于湖北
  • 举报
现在考虑T被分区之后的一个相似度量标准,T按照一个属性检验X的几个输出进行分区。所需信息可通过这些子集的熵的加权和求得: n Info x(T)=-Σi=1 ((|Ti| /|T|).info(Ti)) 信息增益的计算公式: Gain(X) = Info(T) - Info x(T) 通过计算求出具有最高增益的属性。 以下分析有关度量标准的应用和创建决策树的一个简单例子,假设以平面文件形式给出的数据集T,其中有14个样本,通过3个输入属性描述且属于所给的两个类之一:类1或类2。 类1 假 96 C 类1 假 80 C 类1 假 80 C 类2 真 70 C 类2 真 80 C 类1 假 75 B 类1 真 65 B 类1 假 78 B 类1 真 90 B 类1 假 70 A 类2 假 95 A 类2 假 85 A 类2 真 90 A 类1 真 70 A 属性4 属性3 属性2 属性1 数据库T: 训练例子的简单平面数据库 其中:9个样本属于类1,5个样本属于类2,因此分区前的熵为: info(T)= -9/14.log2(9/14) -5/14.log2(5/14) = 0.940比特 根据属性1把初始样本集分区成3个子集(检验x1表示从3个值A,B或C中选择其一)后,得出结果: Info x1(T)=5/14(-2/5 log2(2/5) -3/5 log2(3/5

文档评论(0)

1亿VIP精品文档

相关文档