网站大量收购独家精品文档,联系QQ:2885784924

分类跟回归树.pptx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1 判定树基本观念 2 分类与回归树(CART) 分类与回归树(Classification And Regression Trees,CART)CART算法是建构判定树时最常用的算法之一。自从1984年布里曼(L. Brieman)与其同僚发表这种方法以来,就一直机械学习实验的要素。 3 分类与回归树(CART) 找出起始的分隔: 用来评估一个分隔数的衡量标准是分散度(diversity)。对于一组数据的『分散度指标』(index of diversity)有多种计算方式。不论哪一种,分散度指标很高,表示这个组合中包含平均分配到多个类别,而分散度指标很低则表示一个单一类别的成员居优势。 4 分类与回归树(CART) 找出起始的分隔: 最好的分隔变量是能够降低一个数据组的分散度,而且降得最多。换言之,我们希望以下这个式子最大化:  分散度(分隔前)-﹝分散度(分隔后左边子集 合)+分散度(分隔后右边子集合)﹞  三分种分散度衡量法:  min{P(c1), P(c2) }  2P(c1)P(c2 )  〔P(c1)logP (c1)〕+〔P(c2)logP (c2)〕 5 分类与回归树(CART) 计算每个节点的错误率: 每一个叶部如今都分配到一个类别以及一个错误率。回顾前图,图中选取了从根部到标示为『女性』的叶部路径。该节点是一个叶部节点,表示找不到任何分隔变量可以显著的降低其分散性。然而,这并不表示所有祗达这个叶部的资料都属于同一类。使用简单机率的定义,我们可以看到11个叶部中有9个是正确分类。这告诉我们,以这个训练组而言,抵达这个节点的资料是女性的机率为0.818。相对的,这个叶部的错误率1-0.818就是0.812。 6 分类与回归树(CART) 计算整个判定树的错误率: 整个判定树的错误率是所有叶部错误率的加权总数。每一个叶部的错误率乘上数据抵达叶部的机率(分配到资料的比例),加起来的总数就是整个判定树的错误率。 7 分类与回归树(CART) 8 分类与回归树(CART) 9 分类与回归树(CART) 将代价列入考虑 : 我们讨论至此,只使用错误率作为评估一个分支树良莠的依据。然而,在许多应用上,错误分类的代价依数据类别不同而有异。 当然在医疗诊断上,一个错误的阴性诊断(negative)也许会比错误的阳性诊断(positive)伤害更大。在进行癌症抹片检查时,误诊为性也许只会带来更多的检查,但误诊为阴性却可能让病情恶化。我们可以把问题列入考虑,以一个使用加权方式将错误分类的机率加倍的代价函数,来取代错误率。

文档评论(0)

wx171113 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档