C4.5算法概述.docVIP

  • 209
  • 0
  • 约7.29千字
  • 约 13页
  • 2016-02-01 发布于湖北
  • 举报
C4.5算法概述.doc

目录 1 决策树算法 2 1.1 具体应用场景和意义 2 1.2 现状分析 3 2 C4.5算法对ID3算法的改进 4 3 C4.5算法描述 7 3.1 C4.5算法原理 7 3.2 算法框架 8 3.3 C4.5算法伪代码 9 4 实例分析 9 5 C4.5算法的优势与不足 12 5.1 C4.5算法的优势 12 5.2 C4.5算法的不足: 12 参考文献 12 C4.5算法 摘要 最早的决策树算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。ID3只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,其目的是进行分枝时系统的熵最小,从而提高算法的运算速度和精确度。ID3算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信息。C4.5是ID3算法的改进算法,不仅可以处理离散型描述属性,还能处理连续性描述属性。C4.5采用了信息增益比作为选择分枝属性的标准,弥补了ID3算法的不足。 C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进,既适合于分类问题,又适合于回归问题,是目前应用最为广泛的归纳推理算法之一,在数据挖掘中收到研究者的广泛关

文档评论(0)

1亿VIP精品文档

相关文档