- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
C4.5算法介绍;;一、C4.5算法的概述
;;; 设T 为训练数据集,共有k 个类别,集合表示为 { C1 ,C2 , ?,Ck } , | Cj |为Cj 类的例子数,
| T |为数据集T 的例子数。
选择一个属性V, 设它有n个互不重合的取值va ( 1≤a≤n) ,则T 被分为n个子集{ T1,T2?,Tn } , 这里Ti 中的所有实例的取值均为vi。|Ti|为V =vi 的例子数, |Cjv|是V =vi 的例子中,具有Cj 类别的例子数。则有:
(1)类别Cj 的发生概率: p (Cj) = |Cj|/|T|;
(2)属性V = vi 的发生概率:p (vi) =|Ti|/|T|;
(3)属性V = vi 例子中,具有类别Cj 的条件概率:
p(Cj | vi ) = |Cjv | / | Ti |。
类别的信息熵:;按照属性V 把集合T分割,分割后的类别条件熵为:;信息增益(Gain) :;信息增益率:;与ID3算法相比,ID3算法选择信息增益最大即熵下降最大的属性进行分支的。当有大量不同的属性值和采用标准化的处理程序时, 这种启发式方法很有效。而C4.5算法是选择信息增益率最大的属性进行分支的。从局部看,ID3算法每一步都选择最优分支属性,但是从整体上看,有可能使得整个决策树复杂。而C4.5算法从局部看不一定的选择信息增益最大的属性,但是从整体看,分支更明确,获得的有用信息更多。;; C4.5算法将分类范围从分类的属性扩展到数字属性。如果数据集中存在连续型的描述性属性(数字属性),C4.5算法首先将这些连续型属性的值分成不同的区间,即“离散化”。通常将连续型属性值“离散化”的方法为:①寻找该连续型属性的最小值,并将它赋值给min,寻找该连续型属性的最大值,并将它赋值给max;②设置区间[min,max]中的N个等分断点Ai,其中,i=1,2,?,N;③分别计算把(min,Ai)和(Ai,max)(i=1,2,3, ?,N)作为区间值时的信息增益率(Ratio)值,并进行比较;④选取信息增益率最大的A。作为该连续型属性的断点,将属性值设置为[min,A]和(A,max)两个区间值。; 离散化处理过程中,C4.5算法是对节点上的每个属性都要计算其信息增益率,然后从中选择信息增益率最大的属性断点。由于在信息增益率计算过程中涉及到对数函数的计算,在计算程序中就得调用库函数,同时随着数据量的增大,计算量也随之增大。这样就增加了计算量时间。因此,在改进的C4.5算法中采用了 “Fayyad 边界点判定定理”;定义 : 属性A 中的一个值T 是一边界点, 当且仅当在按A 的值排序的实例序列中, 存在两个实例e1 , e2 ∈S 具有不同的类, 使得A ( e1 ) T A( e2 ) , 且不存在任何其他的实例e′∈S , 使得A( e1 ) A ( e′) A ( e2 ) 。A ( e) 表示实例e 的A属性值。S 表示实例的集合。
定理 : 若T 使得E ( A , T , S ) 最小, 则T 是一个边界点。其中, A 为属性, S 为实例集合, E表示平均类熵, T 为某一阈值点。
定理表明, 对连续属性A , 使得实例集合的平均类熵达到最小值的T , 总是处于实例序列中两个相邻异类实例之间。; 由Fayyad 边界点判定定理可知, 无需检查每一个阈值点, 只要检查相邻不同类别的边界点即可。为了保持与C4.5 的一致性, 这里边界点选为相邻不同类别的属性值中较小的一个。例如, 当排序后的实例属性值为{ v1 , v2 , ?, v10 } , 其中前3 个属于类别C1 , 中间4 个属于类别C2 , 最后3个属于类别C3 , 因此只需考察两个边界点v3 与v7
而无需检查其余7 个阈值点, 然后选择v3 与v7 中使得平均类熵最小的那个作为最优阈值。; 当需要离散化的属性的属性值越多, 而所属类别越少时, 性能提高越明显;
当出现最不理想情况, 即每个属性值对应一个类别, 改进算法运算次数与未改进算法相同, 不会降低算法性能。;C4.5分类算法在硕士研究生智育测评中的应用
采用某高校硕士研究生一年级的20名学生的期末考试成绩作为数据集,其中的课程有英语精读、英语听说等英语类课程、自然辩证法、科学社会主义等政治类课程,还有数据挖掘概论、数据库原理、并行计算导论等专业性课程。
在建立决策树的过程中,我们将按以下方式分类:政治成绩(包括自然辩证法和科学社会主义) ,英语成绩(包括英语精读、英语听说和专业外语) ,核心专业课成绩(与本专业培养目标最紧密的课程) ,一般专业课成绩(除核心专业课外的专业课) 。
文档评论(0)