2-dtree-决策树.pptVIP

  • 8
  • 0
  • 约1.14万字
  • 约 71页
  • 2017-02-28 发布于河北
  • 举报
2-dtree-决策树

* Guilin * 建立的决策树 * Guilin * 评估技术 Holdout: 训练集合/测试集合 数据集合很大时较好 k-fold交叉验证: 将数据集合分成k子集合 在每次建树时,使用一个子集合作为测试集合,其它k-1子集合一起作为训练集合 用这k次结果的均值作为参照 它消除了训练集合/测试集合方法的随机性 * Guilin * * 交叉验证图解 数据集合分成k段 一个做测试,其它的用来训练分类器 重复到 Test iteration * Guilin * 增益率 增益率(Gain ratio):是信息增益的一个改良版,它可以减少信息增益偏好于取值较多的属性 增益率考虑分支数目和分枝的大小 它通过内在信息改良信息增益值 也称为分裂率 内在信息:分支里的记录分布的熵 * Guilin * 增益率的定义 增益率一般是 数据均匀分布时很大 数据集中于某个枝时很小 增益率(Quinlan’86))标准化信息增益 * Guilin * 有关决策树分类器的研究问题 分裂属性选择标准 过度拟合(Overfitting) 低度拟合(Underfitting) 评估技术 非均匀数据/类(Imbalanced data/classes) 多标记学习 半监督分类 * Guilin * Summary 决策树的定义 决策树的使用 如何建树 分裂属性选择 不纯度 信息增益

文档评论(0)

1亿VIP精品文档

相关文档