数据仓库与数据挖掘课件110.ppt

数据仓库与数据挖掘课件110

第7章 信息论方法 (2) 7.2. 5 C4.5方法 7.3 决策规则树方法 C4.5算法 ID3算法在数据挖掘中占有非常重要的地位。但是,在应用中,ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等不足。 C4.5是在ID3基础上发展起来的决策树生成算法,由J.R.Quinlan在1993年提出。 C4.5构造决策树的算法 设T为数据集,类别集合为{C1,C2,…,Ck},选择一个属性V把T分为多个子集。设V有互不重合的n个取值{v1,v2,…,vn },则T被分为n个子集T1,T2,…,Tn ,这里Ti中的所有实例的取值均为vi。 令:|T|为数据集T的例子数,|Ti|为v=vi的例子数,|Cj|= freq(Cj,T),为Cj类的例子数,|Cjv|是V=vi例子中,具有Cj类别例子数。 (1)类别的信息熵 (2)类别条件熵 按照属性V把集合T分割,分割后的类别条件熵为: (3)信息增益(gain),即互信息 (4)属性V的信息熵 (5)信息增益率 C4.5对ID3改进是用信息增益率来选择属性。 理论和实验表明,采用“信息增益率”(C4.5方法)比采用“信息增益”(ID3方法)更好,主要是克服了I

文档评论(0)

1亿VIP精品文档

相关文档