- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chap4教材_决策树
练习2 已知:数据见课本表4-7( P122 题2),采用Gini指数作为结点的不纯度度量。 问题: 整个训练样本集的不纯度是多少? 如果对数据按车型属性进行多路划分,则 (车型=运动)的结点的不纯度是多少? (车型=豪华)的结点的不纯度是多少? (车型=家用)的结点的不纯度是多少? 计算不纯性方法3:分类差错率 节点t的分类差错率: p(i|t)是给定结点t中属于类i的记录所占比例,简记为pi 结点分类误差率指数的取值范围: 当记录均匀分布于各分类时,将取得最大值(1 - 1/nc) 当所有记录都属于同一分类时,将取得最小值(0) 例:分别计算3个子女结点的分类差错率 P(C0) = 0/6 = 0 P(C1) = 6/6 = 1 Error = 1 – max (0, 1) = 1 – 1 = 0 P(C0) = 1/6 P(C1) = 5/6 Error = 1 – max (1/6, 5/6) = 1 – 5/6 = 1/6 P(C0) = 2/6 P(C1) = 4/6 Error = 1 – max (2/6, 4/6) = 1 – 4/6 = 1/3 练习3 已知:数据见课本表4-7( P122 题2),采用分类误差率作为结点的不纯度度量。 问题: 整个训练样本集的不纯度是多少? 如果对数据按车型属性进行多路划分,则 (车型=运动)的结点的不纯度是多少? (车型=豪华)的结点的不纯度是多少? (车型=家用)的结点的不纯度是多少? 二元分类问题结点不纯性度量之间的比较: 利用不纯性度量,选择最佳划分 方法:分别比较父节点(划分前)的不纯程度和子女结点(划分后)的不纯程度,它们的差值越大,测试条件的效果就越好。 用增益Δ来作为确定划分效果的标准 其中:I(.)是结点不纯性度量,N是父节点上的记录总数,k是父节点的分支数,N(vj)是子女结点vj的记录个数。 决策树归纳算法,通常就是选择最大化增益Δ的测试条件,作为当前节点的属性测试条件。 利用增益Δ来选择最佳划分示意: B? Yes No Node N3 Node N4 A? Yes No Node N1 Node N2 划分前 M父亲 Ma1 Ma2 Mb1 Mb2 MA MB 比较增益: ΔA(M父亲–MA) vs. ΔB(M父亲–MB) 计算不纯性 计算不纯性 计算不纯性 计算不纯性 加权平均 加权平均 练习4 已知:数据见课本表4-7( P122 题2)。 问题(a)~(g) 熵和Gini指数等不纯度趋向有利于具有大量不同值的属性 产生大量输出测试条件,从而导致与每个划分关联的记录很少。 极端情况如:以顾客ID进行划分,比其他划分方法能得到更“纯”的派生结点 改进方法 信息增益(熵差): ni = 孩子节点i的记录数 n = 节点p的记录数 用于ID3和C4.5算法 增益率: 将父节点p划分为k部分 n表示p的记录数 ni 表示第i部分(p的第i个节点)的记录数 调整信息增益,引入划分信息SplitInfo,把属性测试条件产生的输出数也考虑进去。 如果一个属性产生了大量的划分,它的划分信息SplitInfo将会很大,从而增益率降低。 用于C4.5算法 比较不同类型的属性的划分(以Gini指数为例) 二元属性 标称属性 离散属性 基于GINI指数的二元属性划分方法 划分为两部分 B? Yes No Node N1 Node N2 Gini(N1) = 1 – (5/7)2 – (2/7)2 = 0.194 Gini(N2) = 1 – (1/5)2 – (4/5)2 = 0.528 Gini(Children) = 7/12 * 0.194 + 5/12 * 0.528= 0.333 基于GINI指数的标称属性划分方法 用矩阵帮助选择最佳划分 Multi-way split Two-way split (find best partition of values) 基于GINI指数的连续属性划分方法 问题:需要选择候选划分点 方法1:穷举法 将记录中所有的属性值作为候选划分点,计算每个候选的Gini指标,并从中选择具有最小值的候选划分点。 效率低 计算代价昂贵 改进方法: 根据划分属性,先对记录进行排序 从两个相邻的排过序的属性值中选择中间值作为候选划分点(55、65、72、80、……)。在计算相邻结点时值,部分类分布保持不变,减少计算量。 进一步优化:仅仅考虑位于具有不同类标号的两个相邻记录之间的候选划分点(55、80、97),计算其Gini指数
您可能关注的文档
- abc与t教材dabc(作业成本法).ppt
- accou教材nting phasing.doc
- acs88教材0-04硬件手册.pdf
- adas功教材能标准分析_acc.pdf
- aec-1教材00简易操作说明书.doc
- afcgx教材ji自考“中级财务会计-复习题.doc
- ap美国历教材史模拟试题.doc
- as-71教材2c液位计.pdf
- asme标教材准简介-国际焊接...ppt
- asq-c教材qe 第04章 质量策划.pdf
- 中国国家标准 GB/T 22517.2-2024体育场地使用要求及检验方法 第2部分:游泳场地.pdf
- GB/T 22517.2-2024体育场地使用要求及检验方法 第2部分:游泳场地.pdf
- 《GB/T 22517.2-2024体育场地使用要求及检验方法 第2部分:游泳场地》.pdf
- 苏教版(2017秋)科学三年级下册1.《种子发芽了》 教案(含课堂练习和反思).docx
- 2024-2025学年小学数学六年级上册冀教版(2024)教学设计合集.docx
- 地理商务星球版七年级上册4.5形成气候的主要因素 同步教案.docx
- 2024-2025学年中职中职专业课金融类73 财经商贸大类教学设计合集.docx
- 2024-2025学年初中地理七年级上册(2024)仁爱科普版(2024)教学设计合集.docx
- 2024-2025学年小学英语二年级上册外研版(一起)教学设计合集.docx
- 2024-2025学年高中数学选择性必修 第二册北师大版(2019)教学设计合集.docx
文档评论(0)