【模式识别与人工智能复习题】第五章-决策树习题2.pptxVIP

  • 0
  • 0
  • 约2.3千字
  • 约 18页
  • 2026-03-24 发布于广东
  • 举报

【模式识别与人工智能复习题】第五章-决策树习题2.pptx

;;;什么是纯度?什么是信息增益?信息增益和信息增益比有什么关系?

纯度是衡量结点优劣的判断指标。决策树构建过程中,需要选择样本特征作为结点。特征的划分,目的是保证结点的纯度很大,即希望决策树的分支结点所包含的样本尽可能属于同一类别。

纯度是基于结点来计算的,决策树中每一个结点都有一个纯度,在同一棵决策树上,叶结点的纯度一定是最大的。纯度越大,划分样本的能力越强,特征区分效果越好。

决策树结点纯度的度量规则:信息增益、信息增益比、基尼系数。;什么是纯度?什么是信息增益?信息增益和信息增益比有什么关系?

熵用来度量随机变量的不确定度,熵值越大,随机变量的不确定度越大;条件熵代表在某一个条件下,随机变量的不确定度。

信息增益:随机变量的熵与的条件熵之差,公式如下。

信息增益代表在一个条件下,随机变量不确定性减少的程度。在决策树算法的学习过程中,信息增益越大,纯度越高,特征划分效果越好。;什么是纯度?什么是信息增益?信息增益和信息增益比有什么关系?

信息增益考察的是特征对整个系统的贡献,没有到具体的类别上,一般只能用来做全局的特征选择,无法针对单个类别做特征选择;信息增益只能处理离散型的属性值,无法处理连续值的特征;用信息增益做特征选择时,偏向选择分支较多的属性,容易导致过拟合。

信息增益比是指:特征的信息

文档评论(0)

1亿VIP精品文档

相关文档