数据挖掘 决策树分类.ppt

数据挖掘决策树分类创新

四、决策树分类 Decision Tree Classification The End ID3算法应用 1. 在汽车售后服务中的应用。 2. 在ATM选点预测系统中的应用。 C4.5算法 C4.5算法与ID3算法的不同点 C4.5算法描述 C4.5算法实例分析 C4.5算法源程序分析 C4.5算法特点 C4.5算法应用 C4.5算法与ID3算法的不同点 不同点包括: (1)分支指标采用增益比例(信息增益的标准化),有最大增益比的属性被选为分割属性; (2)按照数值属性值的大小对样本排序,从中选择一个分割点,划分数值属性的取值区间,将处理能力扩充到数值属性; (3)处理缺少属性值的训练样本(最常用值、平均值); (4)使用K次迭代交叉验证,评估模型的优劣程度; (5)根据生成的决策树,可以产生一个if-then规则的集合,每一个规则代表从根节点到叶节点的一条路径。 1.增益比例 信息增益是一种衡量最优分支属性的有效函数,但是它倾向于选择具有大量不同取值的属性,从而产生许多小而纯的子集。 首先,考虑训练样本关于属性值的信息量(熵)split_info(S,A),其中,S代表训练样本集,A代表属性,信息量的计算公式如下: 其中, 表示根据属性A划分的第i个样本子集,样本在A上的取值

文档评论(0)

1亿VIP精品文档

相关文档