分类跟回归树.pptx

下载文档 降价啦

7
0
约1.15千字
约 9页
2018-06-23 发布于江苏
举报
版权申诉
保障服务

分类跟回归树.pptx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1 判定树基本观念 2 分类与回归树（CART）分类与回归树（Classification And Regression Trees，CART）CART算法是建构判定树时最常用的算法之一。自从1984年布里曼（L. Brieman）与其同僚发表这种方法以来，就一直机械学习实验的要素。 3 分类与回归树（CART）找出起始的分隔: 用来评估一个分隔数的衡量标准是分散度（diversity）。对于一组数据的『分散度指标』（index of diversity）有多种计算方式。不论哪一种，分散度指标很高，表示这个组合中包含平均分配到多个类别，而分散度指标很低则表示一个单一类别的成员居优势。 4 分类与回归树（CART）找出起始的分隔: 最好的分隔变量是能够降低一个数据组的分散度，而且降得最多。换言之，我们希望以下这个式子最大化：分散度（分隔前）－﹝分散度（分隔后左边子集合）＋分散度（分隔后右边子集合）﹞ 三分种分散度衡量法： min{P(c1), P(c2) } 2P(c1)P(c2 ) 〔P(c1)logP (c1)〕+〔P(c2)logP (c2)〕 5 分类与回归树（CART）计算每个节点的错误率：每一个叶部如今都分配到一个类别以及一个错误率。回顾前图，图中选取了从根部到标示为『女性』的叶部路径。该节点是一个叶部节点，表示找不到任何分隔变量可以显著的降低其分散性。然而，这并不表示所有祗达这个叶部的资料都属于同一类。使用简单机率的定义，我们可以看到11个叶部中有9个是正确分类。这告诉我们，以这个训练组而言，抵达这个节点的资料是女性的机率为0.818。相对的，这个叶部的错误率1-0.818就是0.812。 6 分类与回归树（CART）计算整个判定树的错误率：整个判定树的错误率是所有叶部错误率的加权总数。每一个叶部的错误率乘上数据抵达叶部的机率(分配到资料的比例)，加起来的总数就是整个判定树的错误率。 7 分类与回归树（CART） 8 分类与回归树（CART） 9 分类与回归树（CART）将代价列入考虑 : 我们讨论至此，只使用错误率作为评估一个分支树良莠的依据。然而，在许多应用上，错误分类的代价依数据类别不同而有异。当然在医疗诊断上，一个错误的阴性诊断（negative）也许会比错误的阳性诊断（positive）伤害更大。在进行癌症抹片检查时，误诊为性也许只会带来更多的检查，但误诊为阴性却可能让病情恶化。我们可以把问题列入考虑，以一个使用加权方式将错误分类的机率加倍的代价函数，来取代错误率。