决策树ID3算法摘要.pptVIP

  • 31
  • 0
  • 约4.74千字
  • 约 19页
  • 2017-07-05 发布于湖北
  • 举报
决策树 ID3算法 (1)决策树技术 构造决策树的基本算法是贪心算法,它以自顶向下递归的各个击破方式构造决策树。一种著名的决策树算法是ID3,算法的基本策略如下: ①创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。 ②否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。 ③对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。 ④使用同样的过程,自顶向下的递归,直到满足下面的三个条件中的一个时就停止递归。 给定节点的所有样本都属于同一类。 没有剩余的属性可以用来划分。 分支没有样本。 8.5 决策树 设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需要的期望信息由下式给出: 其中pi是任意样本属于Ci的概率,并用si/s估计。 设属性A具有v个不同值{a1,a2,…,av}。可以用属性A将S划分为v个子集{S1,S2,…,SV};其中,Sj包含S中这样一些样本,它们在A上具有值aj。如果A选作测试属性(即最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。 设 sij 是子集 Sj 中类 Ci 的样本数。根据由A划分成子集的熵或期望信息由下式给出: 其中,

文档评论(0)

1亿VIP精品文档

相关文档