chap4教材_决策树.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chap4教材_决策树

练习2 已知:数据见课本表4-7( P122 题2),采用Gini指数作为结点的不纯度度量。 问题: 整个训练样本集的不纯度是多少? 如果对数据按车型属性进行多路划分,则 (车型=运动)的结点的不纯度是多少? (车型=豪华)的结点的不纯度是多少? (车型=家用)的结点的不纯度是多少? 计算不纯性方法3:分类差错率 节点t的分类差错率: p(i|t)是给定结点t中属于类i的记录所占比例,简记为pi 结点分类误差率指数的取值范围: 当记录均匀分布于各分类时,将取得最大值(1 - 1/nc) 当所有记录都属于同一分类时,将取得最小值(0) 例:分别计算3个子女结点的分类差错率 P(C0) = 0/6 = 0 P(C1) = 6/6 = 1 Error = 1 – max (0, 1) = 1 – 1 = 0 P(C0) = 1/6 P(C1) = 5/6 Error = 1 – max (1/6, 5/6) = 1 – 5/6 = 1/6 P(C0) = 2/6 P(C1) = 4/6 Error = 1 – max (2/6, 4/6) = 1 – 4/6 = 1/3 练习3 已知:数据见课本表4-7( P122 题2),采用分类误差率作为结点的不纯度度量。 问题: 整个训练样本集的不纯度是多少? 如果对数据按车型属性进行多路划分,则 (车型=运动)的结点的不纯度是多少? (车型=豪华)的结点的不纯度是多少? (车型=家用)的结点的不纯度是多少? 二元分类问题结点不纯性度量之间的比较: 利用不纯性度量,选择最佳划分 方法:分别比较父节点(划分前)的不纯程度和子女结点(划分后)的不纯程度,它们的差值越大,测试条件的效果就越好。 用增益Δ来作为确定划分效果的标准 其中:I(.)是结点不纯性度量,N是父节点上的记录总数,k是父节点的分支数,N(vj)是子女结点vj的记录个数。 决策树归纳算法,通常就是选择最大化增益Δ的测试条件,作为当前节点的属性测试条件。 利用增益Δ来选择最佳划分示意: B? Yes No Node N3 Node N4 A? Yes No Node N1 Node N2 划分前 M父亲 Ma1 Ma2 Mb1 Mb2 MA MB 比较增益: ΔA(M父亲–MA) vs. ΔB(M父亲–MB) 计算 不纯性 计算 不纯性 计算 不纯性 计算 不纯性 加权平均 加权平均 练习4 已知:数据见课本表4-7( P122 题2)。 问题(a)~(g) 熵和Gini指数等不纯度趋向有利于具有大量不同值的属性 产生大量输出测试条件,从而导致与每个划分关联的记录很少。 极端情况如:以顾客ID进行划分,比其他划分方法能得到更“纯”的派生结点 改进方法 信息增益(熵差): ni = 孩子节点i的记录数 n = 节点p的记录数 用于ID3和C4.5算法 增益率: 将父节点p划分为k部分 n表示p的记录数 ni 表示第i部分(p的第i个节点)的记录数 调整信息增益,引入划分信息SplitInfo,把属性测试条件产生的输出数也考虑进去。 如果一个属性产生了大量的划分,它的划分信息SplitInfo将会很大,从而增益率降低。 用于C4.5算法 比较不同类型的属性的划分(以Gini指数为例) 二元属性 标称属性 离散属性 基于GINI指数的二元属性划分方法 划分为两部分 B? Yes No Node N1 Node N2 Gini(N1) = 1 – (5/7)2 – (2/7)2 = 0.194 Gini(N2) = 1 – (1/5)2 – (4/5)2 = 0.528 Gini(Children) = 7/12 * 0.194 + 5/12 * 0.528 = 0.333 基于GINI指数的标称属性划分方法 用矩阵帮助选择最佳划分 Multi-way split Two-way split (find best partition of values) 基于GINI指数的连续属性划分方法 问题:需要选择候选划分点 方法1:穷举法 将记录中所有的属性值作为候选划分点,计算每个候选的Gini指标,并从中选择具有最小值的候选划分点。 效率低 计算代价昂贵 改进方法: 根据划分属性,先对记录进行排序 从两个相邻的排过序的属性值中选择中间值作为候选划分点(55、65、72、80、……)。在计算相邻结点时值,部分类分布保持不变,减少计算量。 进一步优化:仅仅考虑位于具有不同类标号的两个相邻记录之间的候选划分点(55、80、97),计算其Gini指数

文档评论(0)

honey888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档