- 209
- 0
- 约7.29千字
- 约 13页
- 2016-02-01 发布于湖北
- 举报
C4.5算法概述.doc
目录
1 决策树算法 2
1.1 具体应用场景和意义 2
1.2 现状分析 3
2 C4.5算法对ID3算法的改进 4
3 C4.5算法描述 7
3.1 C4.5算法原理 7
3.2 算法框架 8
3.3 C4.5算法伪代码 9
4 实例分析 9
5 C4.5算法的优势与不足 12
5.1 C4.5算法的优势 12
5.2 C4.5算法的不足: 12
参考文献 12
C4.5算法
摘要
最早的决策树算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。ID3只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,其目的是进行分枝时系统的熵最小,从而提高算法的运算速度和精确度。ID3算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信息。C4.5是ID3算法的改进算法,不仅可以处理离散型描述属性,还能处理连续性描述属性。C4.5采用了信息增益比作为选择分枝属性的标准,弥补了ID3算法的不足。
C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进,既适合于分类问题,又适合于回归问题,是目前应用最为广泛的归纳推理算法之一,在数据挖掘中收到研究者的广泛关
原创力文档

文档评论(0)