数据分类决策树.pptVIP

下载本文档

0
0
约9.86千字
约 65页
2025-06-23 发布于广东
举报
版权申诉

数据分类决策树.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

熵是一个衡量系统混乱程度的统计量。熵越大，表示系统越混乱。分类的目的是提取系统信息，使系统向更加有序、有规则组织的方向发展。所以最佳的分裂方案是使熵减少量最大的分裂方案。熵减少量就是InformationGain（信息增益），所以，最佳分裂就是使Gain(A)最大的分裂方案。通常，这个最佳方案是用“贪心算法+深度优先搜索”得到的。**第30页，共65页，星期日，2025年，2月5日现在考虑T被分区之后的一个相似度量标准，T按照一个属性检验X的几个输出进行分区。所需信息可通过这些子集的熵的加权和求得：nInfox(T)＝－Σi=1((|Ti|/|T|).info(Ti))信息增益的计算公式：Gain(X)=Info(T)-Infox(T)通过计算求出具有最高增益的属性。**第31页，共65页，星期日，2025年，2月5日以下分析有关度量标准的应用和创建决策树的一个简单例子，假设以平面文件形式给出的数据集T，其中有14个样本，通过3个输入属性描述且属于所给的两个类之一：类1或类2。**第32页，共65页，星期日，2025年，2月5日训练例子的简单平面数据库数据库T：属性1属性2属性3属性4A70真类1A90真类2A85假类2A95假类2A70假类1B90真类1B78假类1B65真类1B75假类1C80真类2C70真类2C80假类1C80假类1C96假类1**第33页，共65页，星期日，2025年，2月5日其中：9个样本属于类1，5个样本属于类2，因此分区前的熵为：info(T)＝-9/14.log2(9/14)-5/14.log2(5/14)=0.940比特根据属性1把初始样本集分区成3个子集（检验x1表示从3个值A，B或C中选择其一）后，得出结果： Infox1(T)＝5/14（-2/5log2(2/5)-3/5log2(3/5)） +4/14（-4/4log2(4/4)-0/4log2(0/4)） +5/14（-3/5log2(3/5)-2/5log2(2/5)） =0.694比特通过检验x1获得的信息增益是： Gain(x1)=0.940–0.694=0.246比特**第34页，共65页，星期日，2025年，2月5日如果该检验和分区是基于属性3的（检验x2表示从真或假两个值选择其一），类似地有： Infox2(T)＝6/14（-3/6log2(3/6)-3/6log2(3/6)） +8/14（-6/8log2(6/8)-2/8log2(2/8)） =0.892比特通过检验x2获得的增益是： Gain(x2)=0.940–0.892=0.048比特按照增益准则，将选择x1作为分区数据库T的最初检验。为了求得最优检验还必须分析关于属性2的检验，它是连续取值的数值型属性。**第35页，共65页，星期日，2025年，2月5日3.ID3算法的改进（1）离散化为了解决该问题，在用ID3算法挖掘具有连续性属性的知识时，应该首先把该连续性属性离散化。最简单的方法就是把属性值分成和两段。如身高可以分为1米以下，1米以上或者分为1.5米以下，1.5米以上。如何选择最佳的分段值呢？对任何一个属性，其所有的取值在一个数据集中是有限的。假设该属性取值为，则在这个集合中，一共存在m-1个分段值，ID3算法采用计算信息量的方法计算最佳的分段值，然后进一步构建决策树。ID3算法的扩展是C4.5算法，C4.5算法把分类范围从分类属性扩展到数字属性。**第36页，共65页，星期日，2025年，2月5日1.C4.5算法概述C4.5算法是ID3算法的扩展，它的改进部分是：能够处理连续型的属性。首先将连续型属性离散化，把连续型属性的值分成不同的区间，依据是比较各个属性Gian值的大小。缺失数据的考虑：在构建决策树时，可以简单地忽略缺失数据，即在计算增益时，仅考虑具有属性值的记录。提供两种基本的剪枝策略：子树替代法：用叶结点替代子树。子树上升法：用一棵子树中最常用的子树来代替这棵子树。5.5分类规则挖掘的C4.5算法剪枝目的是降低由于训练集存在噪声而产生的起伏。**第37页，共65页，星期日，2025年，2月5日2.离散化的方法把连续型属性值离散化的具体方法是：

1）寻找该连续型属性的最小值，并把它赋值给MIN，