C45算法课件下载.pptVIP

下载本文档

7
0
约9.31千字
约 32页
2023-08-14 发布于广东
举报
版权申诉

C45算法课件下载.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

C4.5算法介绍;;一、C4.5算法的概述 ;;; 设T 为训练数据集,共有k 个类别,集合表示为 { C1 ,C2 , ?,Ck } , | Cj |为Cj 类的例子数, | T |为数据集T 的例子数。选择一个属性V, 设它有n个互不重合的取值va ( 1≤a≤n) ,则T 被分为n个子集{ T1,T2?,Tn } , 这里Ti 中的所有实例的取值均为vi。|Ti|为V =vi 的例子数, |Cjv|是V =vi 的例子中,具有Cj 类别的例子数。则有： (1)类别Cj 的发生概率: p (Cj) = |Cj|/|T|; (2)属性V = vi 的发生概率:p (vi) =|Ti|/|T|; (3)属性V = vi 例子中,具有类别Cj 的条件概率: p(Cj | vi ) = |Cjv | / | Ti |。类别的信息熵：;按照属性V 把集合T分割,分割后的类别条件熵为：;信息增益(Gain) ：;信息增益率：;与ID3算法相比，ID3算法选择信息增益最大即熵下降最大的属性进行分支的。当有大量不同的属性值和采用标准化的处理程序时, 这种启发式方法很有效。而C4.5算法是选择信息增益率最大的属性进行分支的。从局部看，ID3算法每一步都选择最优分支属性，但是从整体上看，有可能使得整个决策树复杂。而C4.5算法从局部看不一定的选择信息增益最大的属性，但是从整体看，分支更明确，获得的有用信息更多。;; C4．5算法将分类范围从分类的属性扩展到数字属性。如果数据集中存在连续型的描述性属性(数字属性)，C4．5算法首先将这些连续型属性的值分成不同的区间，即“离散化”。通常将连续型属性值“离散化”的方法为：①寻找该连续型属性的最小值，并将它赋值给min，寻找该连续型属性的最大值，并将它赋值给max；②设置区间[min，max]中的N个等分断点Ai，其中，i=1,2,?,N；③分别计算把(min，Ai)和(Ai,max)(i=1,2,3, ?,N)作为区间值时的信息增益率（Ratio）值，并进行比较；④选取信息增益率最大的A。作为该连续型属性的断点，将属性值设置为[min，A]和(A，max)两个区间值。; 离散化处理过程中，C4.5算法是对节点上的每个属性都要计算其信息增益率,然后从中选择信息增益率最大的属性断点。由于在信息增益率计算过程中涉及到对数函数的计算,在计算程序中就得调用库函数,同时随着数据量的增大，计算量也随之增大。这样就增加了计算量时间。因此，在改进的C4.5算法中采用了　“Fayyad 边界点判定定理”;定义 : 属性A 中的一个值T 是一边界点, 当且仅当在按A 的值排序的实例序列中, 存在两个实例e1 , e2 ∈S 具有不同的类, 使得A ( e1 ) T A( e2 ) , 且不存在任何其他的实例e′∈S , 使得A( e1 ) A ( e′) A ( e2 ) 。A ( e) 表示实例e 的A属性值。S 表示实例的集合。定理 : 若T 使得E ( A , T , S ) 最小, 则T 是一个边界点。其中, A 为属性, S 为实例集合, E表示平均类熵, T 为某一阈值点。定理表明, 对连续属性A , 使得实例集合的平均类熵达到最小值的T , 总是处于实例序列中两个相邻异类实例之间。; 由Fayyad 边界点判定定理可知, 无需检查每一个阈值点, 只要检查相邻不同类别的边界点即可。为了保持与C4.5 的一致性, 这里边界点选为相邻不同类别的属性值中较小的一个。例如, 当排序后的实例属性值为{ v1 , v2 , ?, v10 } , 其中前3 个属于类别C1 , 中间4 个属于类别C2 , 最后3个属于类别C3 , 因此只需考察两个边界点v3 与v7 而无需检查其余7 个阈值点, 然后选择v3 与v7 中使得平均类熵最小的那个作为最优阈值。; 当需要离散化的属性的属性值越多, 而所属类别越少时, 性能提高越明显; 当出现最不理想情况, 即每个属性值对应一个类别, 改进算法运算次数与未改进算法相同, 不会降低算法性能。;C4.5分类算法在硕士研究生智育测评中的应用采用某高校硕士研究生一年级的20名学生的期末考试成绩作为数据集,其中的课程有英语精读、英语听说等英语类课程、自然辩证法、科学社会主义等政治类课程,还有数据挖掘概论、数据库原理、并行计算导论等专业性课程。在建立决策树的过程中,我们将按以下方式分类:政治成绩(包括自然辩证法和科学社会主义) ,英语成绩(包括英语精读、英语听说和专业外语) ,核心专业课成绩(与本专业培养目标最紧密的课程) ,一般专业课成绩(除核心专业课外的专业课) 。