- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
9.信息论方法二.ppt
第7章 信息论方法(二) 7.2. 5 C4.5方法 7.3 决策规则树方法 C4.5算法 ID3算法在数据挖掘中占有非常重要的地位。但是,在应用中,ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等不足。C4.5是在ID3基础上发展起来的决策树生成算法,由J.R.Quinlan在1993年提出。 C4.5构造决策树的算法 设T为数据集,类别集合为{C1,C2,…,Ck},选择一个属性V把T分为多个子集。设V有互不重合的n个取值{v1,v2,…,vn },则T被分为n个子集T1,T2,…,Tn ,这里Ti中的所有实例的取值均为vi。 令:|T|为数据集T的例子数,|Ti|为v=vi的例子数,|Cj|= freq(Cj,T),为Cj类的例子数,|Cjv|是V=vi例子中,具有Cj类别例子数。 (1)类别的信息熵 (2)类别条件熵 按照属性V把集合T分割,分割后的类别条件熵为: (3)信息增益(gain),即互信息 (4)属性V的信息熵 (5)信息增益率 C4.5对ID3改进是用信息增益率来选择属性。 理论和实验表明,采用“信息增益率”(C4.5方法)比采用“信息增益”(ID3方法)更好,主要是克服了ID3方法选择偏向取值多的属性。 2、连续属性的处理 在ID3 中没有处理连续属性的功能。在C4.5中,设在集合T中,连续属性A的取值为{v1,v2,…,vm},则任何在vi和vi+1之间的任意取值都可以把实例集合分为两部分T1={ t | A = vi}和T2={ t | A vi},可以看到一共有m-1种分割情况。 对属性A的m-1种分割的任意一种情况,作为该属性的两个离散取值,重新构造该属性的离散值,再按照上述公式计算每种分割所对应的信息增益率gain_ratio(vi),在m-1中分割中,选择最大增益率的分割作为属性A的分枝: Threshold(V) = vk 其中, gain_ratio(vk) = max{ gain_ratio(vi) } 则连续属性A可以分割为: 3、决策树剪枝 由于噪声和随机因素的影响,上述树一般会很复杂。因此需要进行剪枝操作。 (1)什么时候剪枝? 有两种剪枝策略:(1)在树生成过程中判断是否还继续扩展决策树。若停止扩展,则相当于剪去该结点以下的分枝。(2)对于生成好的树剪去某些结点和分枝。C4.5采用第二种方法。 剪枝之后的决策树的叶结点不再只包含一类实例。结点有一个类分布描述,即该叶结点属于某类的概率。 4、从决策树抽取规则 在C4.5中,从决策树抽取规则需要两个步骤:获得简单规则、精简规则属性。 对于生成好的决策树,我们可以直接从获得规则。从根到叶的每一条路经都可以是一条规则。例如,从下面的决策树中我们可以得到规则: 7.3 决策规则树方法 我们于91年研制的IBLE方法是利用信息论中信道容量的概念作为对实体中选择重要特征的度量。 IBLE方法建立的是决策规则树,树中每个结点是由多个特征所组成。特征的选取是通过计算各特征信道容量来进行的。各特征的正例标准值由译码函数决定。结点中判别正反例的阈值(wn,wp)是由实例中权值变化的规律来确定的。 决策规则树 决策规则树结点 (1)规则表示形式 决策规则树中非叶结点均为规则。规则表示为: 特征: A1,A2,..., .Am 权值: W1,W2,...,.Wm 标准值:V1,V2,..., .Vm 阈值:Sp,Sn 该规则可形式描述为: (1)sum:=0; (2)对i:=1到m作:若(Ai)=Vi,则sum:=sum+wi; (3)若sum?sn,则该例为N类; (4)若sum?sp,则该例为P类; (5)若snsumsp,则该例暂不能判,转下一条规则判别。 其中sum表示权和,(Ai)表示特征Ai的取值。 (2)举例 设问题空间中例子有10个特征(属性),特征编号从1到10。每个特性取值为{no,yes},用{0,1}表示,规则是由重要特征组成的,对每个特征求出权值以表示其重要程度,删除不重要特征得规则如下: 特征: 1 3 4 6 7 权值: 100 90 105 500 40 标准值: 1 0 1 1 0 阈值: 220,100 现有三个测试例子: 例子1:(1,0,0,0,1,0,0,1,1,1) 例子2:(0,1,0,0,1,0,0,0,1,0) 例子3:(0,1,0,0,1,0,1,0,
您可能关注的文档
- 01-2008年涉外秘书资格三级英语试卷.ppt
- 01-糖尿病运动治疗.ppt
- 02销售-保险理财-消灭财富隐形杀手.ppt
- 04新锐军事科技与武器PP4伪装隐身.ppt
- 1.2技术的性质 1.ppt
- 1.2技术的性质 2.ppt
- 10.18-听力--Numbers.ppt
- 10.3-涉外、涉及华侨和港澳台同胞的婚姻.ppt
- 1120英语8-王昶-听力解析.ppt
- 11涉外离婚2012-上传版-上.ppt
- 新启航英语二年级上册Unit5 Festival Period 2 课件.ppt
- 10.相亲相爱一家人 情境化教学课件-统编版2026道德与法治一年级下册.ppt
- 7星星点点 AI赋能课件 2026人美版美术一年级下册.ppt
- 3.2 世界的气候类型(教学课件) 2025中图版地理八年级上册.ppt
- 5.1 发达国家与发展中国家的差异(教学课件) 2025中图版地理八年级上册.ppt
- 13.快乐的儿童节 情境化教学课件-统编版2026道德与法治一年级下册.ppt
- 新启航英语二年级上册Unit5 Festival Period 1 课件.ppt
- 2025冀教版数学三年级上册全册教学课件.ppt
- 地理试卷云南名校联盟2026届高三上学期第三次联考(12.25-12.26).docx
- 2025~2026学年第一学期 高一年级英语试卷.docx
最近下载
- AI工业设备预测性维护解决方案.pptx VIP
- 《马克思主义基本原理》教案 第5课 坚持按唯物辩证法办事.pdf VIP
- 湖南省高三英语复习:介词复习.doc VIP
- 内浮顶储罐消防知识培训.pptx VIP
- 立体定向γ-射线放射治疗原发性肝癌的临床疗效与应用分析.docx VIP
- 2026及未来5年中国智能门禁系统市场数据分析及竞争策略研究报告.docx
- 门诊部护士长年终述职PPT课件.pptx VIP
- 电仪技术培训教材最终版.doc VIP
- 2025年人教版(2024)小学信息科技六年级(全一册)教学设计(附目录P219).docx
- 《马克思主义基本原理》教案 第4课 事物的普遍联系与变化发展(下).pdf VIP
原创力文档


文档评论(0)