chap4教材_决策树.ppt

下载文档 降价啦

1
0
约7.57千字
约 58页
2019-07-07 发布于湖北
举报
版权申诉
保障服务

chap4教材_决策树.ppt

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

chap4教材_决策树

练习2 已知：数据见课本表4-7（ P122 题2），采用Gini指数作为结点的不纯度度量。问题：整个训练样本集的不纯度是多少？如果对数据按车型属性进行多路划分，则（车型=运动）的结点的不纯度是多少？（车型=豪华）的结点的不纯度是多少？（车型=家用）的结点的不纯度是多少？计算不纯性方法3:分类差错率节点t的分类差错率: p(i|t)是给定结点t中属于类i的记录所占比例，简记为pi 结点分类误差率指数的取值范围：当记录均匀分布于各分类时，将取得最大值(1 - 1/nc) 当所有记录都属于同一分类时，将取得最小值(0) 例：分别计算3个子女结点的分类差错率 P(C0) = 0/6 = 0 P(C1) = 6/6 = 1 Error = 1 – max (0, 1) = 1 – 1 = 0 P(C0) = 1/6 P(C1) = 5/6 Error = 1 – max (1/6, 5/6) = 1 – 5/6 = 1/6 P(C0) = 2/6 P(C1) = 4/6 Error = 1 – max (2/6, 4/6) = 1 – 4/6 = 1/3 练习3 已知：数据见课本表4-7（ P122 题2），采用分类误差率作为结点的不纯度度量。问题：整个训练样本集的不纯度是多少？如果对数据按车型属性进行多路划分，则（车型=运动）的结点的不纯度是多少？（车型=豪华）的结点的不纯度是多少？（车型=家用）的结点的不纯度是多少？二元分类问题结点不纯性度量之间的比较：利用不纯性度量，选择最佳划分方法：分别比较父节点（划分前）的不纯程度和子女结点（划分后）的不纯程度，它们的差值越大，测试条件的效果就越好。用增益Δ来作为确定划分效果的标准其中：I(.)是结点不纯性度量,N是父节点上的记录总数，k是父节点的分支数，N(vj)是子女结点vj的记录个数。决策树归纳算法，通常就是选择最大化增益Δ的测试条件，作为当前节点的属性测试条件。利用增益Δ来选择最佳划分示意： B? Yes No Node N3 Node N4 A? Yes No Node N1 Node N2 划分前 M父亲 Ma1 Ma2 Mb1 Mb2 MA MB 比较增益: ΔA(M父亲–MA) vs. ΔB(M父亲–MB) 计算不纯性计算不纯性计算不纯性计算不纯性加权平均加权平均练习4 已知：数据见课本表4-7（ P122 题2）。问题(a)~(g) 熵和Gini指数等不纯度趋向有利于具有大量不同值的属性产生大量输出测试条件，从而导致与每个划分关联的记录很少。极端情况如：以顾客ID进行划分，比其他划分方法能得到更“纯”的派生结点改进方法信息增益（熵差）: ni = 孩子节点i的记录数 n = 节点p的记录数用于ID3和C4.5算法增益率: 将父节点p划分为k部分 n表示p的记录数 ni 表示第i部分（p的第i个节点）的记录数调整信息增益，引入划分信息SplitInfo，把属性测试条件产生的输出数也考虑进去。如果一个属性产生了大量的划分，它的划分信息SplitInfo将会很大，从而增益率降低。用于C4.5算法比较不同类型的属性的划分（以Gini指数为例）二元属性标称属性离散属性基于GINI指数的二元属性划分方法划分为两部分 B? Yes No Node N1 Node N2 Gini(N1) = 1 – (5/7)2 – (2/7)2 = 0.194 Gini(N2) = 1 – (1/5)2 – (4/5)2 = 0.528 Gini(Children) = 7/12 * 0.194 + 5/12 * 0.528= 0.333 基于GINI指数的标称属性划分方法用矩阵帮助选择最佳划分 Multi-way split Two-way split (find best partition of values) 基于GINI指数的连续属性划分方法问题：需要选择候选划分点方法1:穷举法将记录中所有的属性值作为候选划分点，计算每个候选的Gini指标，并从中选择具有最小值的候选划分点。效率低计算代价昂贵改进方法：根据划分属性，先对记录进行排序从两个相邻的排过序的属性值中选择中间值作为候选划分点(55、65、72、80、……）。在计算相邻结点时值，部分类分布保持不变，减少计算量。进一步优化：仅仅考虑位于具有不同类标号的两个相邻记录之间的候选划分点（55、80、97），计算其Gini指数