大数据经典算法CART 讲解.pptVIP

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据经典算法CART 讲解.ppt

(第四组)分类与回归树算法(CART) 分类与回归 什么是CART 摘要 Hunt算法 设Dt是与节点t相关联的训练记录集, y={y1,y2,…,yc}是类标号。 Hunt算法的递归定义如下: (1)如果Dt中所有记录都属于同一个类yt,则t是 叶子节点。 (2)如果Dt中包含属于多个类的记录,则选择一 个属性测试条件,将记录划分成较小的子集。 对于测试条件的每一个输出创建一个子女结 点,并根据测试结果将Dt中的记录分布到子 女结点中。然后,对于每个子女结点,递归 调用该算法。 一递归划分自变量空间 决策树 ?如何划分训练记录? ?如何表示属性测试条件? ?如何确定最佳划分? ?如何构建测试条件效果最好的树? 如何确定最佳划分 贪婪法:根据子女结点类分布的一致性程度来 选择最佳划分 度量结点的不纯度 ?Gini ?熵 ?误分类误差 不纯度度量——GINI 对于一个给定的结点t: 是结点t中类j的相对频率 最大值:(1 - 1/nc),记录在所有类中等分布 最小值:0,所有记录属于同一个类 如何划分训练记录 ?根据属性类型的不同: ?标称属性 ? 序数属性 ?连续属性 ?根据分割的数量 ?二元划分 ?多元化分 选择最佳分割点 测试条件效果 为确定测试条件划分,比较父节点(划分前)的不纯度和子女结点的不纯度,差越大测试效果就越好 不变值 决策树停止生长条件 决策树(Hunt算法) 剪枝 剪枝方法 代价复杂性剪枝 模型评价 Thank you! * * 分类 ——划分离散变量 回归——划分连续变量 welcome to use these PowerPoint templates, New Content design, 10 years experience 分类与回归树 CART采用一种二分递归分割的技术,将当前 的样本集分为两个子样本集,使得生成的决 策树的每个非叶子节点都有两个分支。 CART算法生成的决策树是结构简洁的二叉树。 递归划分自变量空间 验证数据进行剪枝 模型评价 tid 有房者 婚姻状况 年收入 拖欠贷款者 1 2 3 4 5 6 7 8 9 10 是 否 否 是 否 否 是 否 否 否 单身 已婚 单身 已婚 离异 已婚 离异 单身 已婚 单身 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K 否 否 否 否 是 否 否 是 否 是 训 练 集 如何以递归方式建立决策树? 如何表示测试条件 数值型变量 对记录的值从小到大排序,计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。 分类型变量 列出划分为两个子集的所有可能组合,计算每种组合下生成子节点的异质性。同样,找到使异质性减小程度最大的组合作为最佳划分点。 有房 无房 否 3 4 是 0 3 Gini(t1)=1-(3/3)2-(0/3)2=0 Gini(t2)=1-(4/7)2-(3/7)2=0.4849 Gini=0.3×0+0.7×0.4898=0.343 单身 已婚 离异 否 2 4 1 是 2 0 1 单身或已婚 离异 否 6 1 是 2 1 单身或离异 已婚 否 3 4 是 3 0 离异或已婚 单身 否 5 2 是 1 2 Gini(t1)=1-(2/4)2-(2/4)2=0.5 Gini(t2)=1-(0/4)2-(4/4)2=0 Gini(t3)=1-(1/2)2-(1/2)2=0.5 Gini=4/10×0.5+4/10×0+2/10×0.5=0.3 Gini(t1)=1-(6/8)2-(2/8)2=0.375 Gini(t2)=1-(1/2)2-

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档