2.决策树资料.pptVIP

  • 12
  • 0
  • 约3.53千字
  • 约 37页
  • 2016-12-23 发布于湖北
  • 举报
有工作的信息增益 有房子的信息增益 信贷情况的信息增益 最后比较各特征的信息增益值,对于特征A3有自己房子的信息增益值最大,所以选择特征A3作为最优特征。 结合最开始的例子,我们可以知道年龄作为首选特征的信息增益最大,选择年龄作为见与不见首要条件。 ID3算法 ID3算法的核心是在决策树各个子节点上应用信息增益准则选择特征,递归的构建决策树,具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归调用以上方法,构建决策树。 直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。 继续前面的过程,由于特征A3(有自己房子)的信息增益值最大,所以选择特征A3作为根节点的特征。它将训练数据集划分为两个子集D1(A3取值为是)和D2(A3取值为否)。由于D1只有同一类样本点,可以明确要贷款给D1,所以它成为一个叶节点,节点类标记为“是”。 对于D2则需要从特征A1(年龄),A2(有工作)和A4(信贷情况)中选择新的特征。计算各个特征的信息增益: 选择信息增益最大的特征A2(有工作)作为节点特征。A2有2个取值,一个对应“是”(有工作)的子节点,包含3个样本,

文档评论(0)

1亿VIP精品文档

相关文档