数据挖掘决策树分类创新
四、决策树分类 Decision Tree Classification The End ID3算法应用 1. 在汽车售后服务中的应用。 2. 在ATM选点预测系统中的应用。 C4.5算法 C4.5算法与ID3算法的不同点 C4.5算法描述 C4.5算法实例分析 C4.5算法源程序分析 C4.5算法特点 C4.5算法应用 C4.5算法与ID3算法的不同点 不同点包括: (1)分支指标采用增益比例(信息增益的标准化),有最大增益比的属性被选为分割属性; (2)按照数值属性值的大小对样本排序,从中选择一个分割点,划分数值属性的取值区间,将处理能力扩充到数值属性; (3)处理缺少属性值的训练样本(最常用值、平均值); (4)使用K次迭代交叉验证,评估模型的优劣程度; (5)根据生成的决策树,可以产生一个if-then规则的集合,每一个规则代表从根节点到叶节点的一条路径。 1.增益比例 信息增益是一种衡量最优分支属性的有效函数,但是它倾向于选择具有大量不同取值的属性,从而产生许多小而纯的子集。 首先,考虑训练样本关于属性值的信息量(熵)split_info(S,A),其中,S代表训练样本集,A代表属性,信息量的计算公式如下: 其中, 表示根据属性A划分的第i个样本子集,样本在A上的取值
您可能关注的文档
最近下载
- 妊娠期急腹症.pptx VIP
- 2025年华师版八年级下册数学第19章综合检测试卷及答案.docx VIP
- 晋中职业技术学院单招面试试题及答案.docx VIP
- 妊娠期急腹症专题宣讲.pptx
- 海南省儋州市某中学2024-2025学年华东师大版八年级下学期3月月考数学试卷(含解析).pdf VIP
- 妊娠期急腹症专题宣讲.ppt VIP
- 基于PLC的三自由度搬运机械手设计.docx
- 海南省海口市部分学校2024-2025学年七年级下学期第四次月考地理试卷(含答案).pdf VIP
- 17J008 挡土墙(重力式、衡重式、悬臂式) 高清晰版-OK.pdf VIP
- 二战中缅印战区盟国军事外交研究--以战时援华交通线为中心.pdf
原创力文档

文档评论(0)