分层决策树探究.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分层思想的提出 ID3算法 典型的基于自顶向下的贪婪算法 在每个节点找到局部最优的属性进行扩展,需要更多的附加节点 针对多分类问题,ID3算法不容易处理 分层思想的提出 分层思想解决多类问题的手段是把一个多类问题转为两类问题。 这种方法首先通过选择相关程度最大的属性一值对(它尽可能把多个类清晰分割为正、反两大类)把训练集中的多个类转换成正(Y)和反(N)两类,用ID3方法产生第一级决策树。 把经过第一层划分后得到的正、反两大类数据集分别在细分为子的正、反两类来产生第二级决策树。 对第二级决策树得到的每个子正、反类在重复上述操作,直到把原训练集中所有类分清;最后将各层决策树转化为一组规则。 实例 基于分层思想生成决策树 基于层次分解思想的决策树生成过程 从所给例子中选出训练集。 对每个属性考察它是否能把多个类分割为正、反两大类: 若某些属性能分割,计算由此属性把原数据集转化为正、反两大类后根节点的嫡值,选取分割类后根属性所获得熵最小的属性分割标准作为当前层的最终分割结果,把多类转化为正、反两类。 若所有属性都不能分割,则使用经典ID3方法直接产生决策树。 用ID3方法产生当前层决策树。 分别对所得到的正、反两类递归调用该过程。 把每层产生的决策树转化为相应的一组规则。 原理的区别 算法 Step1: 统计当前属性下的每个分支所含的类,每个类包含的例子个数 Step2: 给定阈值k1,对各分支中统计的每个类个数进行如下操作 若此分支中的某个类的数据个数在这个类所含全部数据的概率小于给定阈值k1,则此分支中对应类的例子个数可忽略。(k1值随数据库不同而进行调整,通常取值小于0.1) Step3: 计算每个类与其他类在每个分支中重叠个数之和占此类中总个 数的比例。统计出各个类之间的重叠程度。 Step4: 判断每个类与其他类重叠程度 如果某个或某几个类与其他类的重叠程度接近0,则这个或者这几个类为正类,其他类为反类,得到当前测试属性分割结果 否则给定阈值k2,如果两个类的重叠程度都大于给定阈值k2,则这些大于闭值的类组合在一起。考虑剩余的类,分别把剩余的类放入交叠程度大于k2的类组合中,否则,把剩余的类组合在一起,最终转化为正、反两类。(k2值随数据库不同而进行调整,通常取值大于0.8) Car数据集(对于属性A6) 交叠程度的计算 unacc与acc的交叠程度 355/(355+277+576) + 277/(355+277+576) = 0.523 unacc与vgood的交叠程度 277/(355+277+576) = 0.229 unacc与good的交叠程度 355/(355+277+576) + 277/(355+277+576) = 0.523 acc与unacc的交叠程度 180/(180+204)+204/(180+204) = 1 acc与vgood的交叠程度 204/(180+204) = 0.531 交叠程度矩阵 划分为两类 unacc为正类,其他为负类 计算信息熵:此时根属性A6分割训练后的信息熵为0.4526 * 基于层次分解思想的决策树 2015.04.09 类 unacc acc vgood good a1 576 0 0 0 a2 357 180 0 39 a3 277 204 65 30 类 unacc acc vgood good unacc 1 0.523 0.229 0.523 acc 1 1 0.531 1 vgood 1 1 1 1 good 1 1 0.435 1 *

文档评论(0)

2226657222 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档