第5章节数据分类-决策树.pptVIP

下载本文档

1
0
约8.56千字
约 65页
2017-09-15 发布于浙江
举报
版权申诉

第5章节数据分类-决策树.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第5章节数据分类-决策树

现在考虑T被分区之后的一个相似度量标准，T按照一个属性检验X的几个输出进行分区。所需信息可通过这些子集的熵的加权和求得： n Info x(T)＝－Σi=1 ((|Ti| /|T|).info(Ti)) 信息增益的计算公式： Gain(X) = Info(T) - Info x(T) 通过计算求出具有最高增益的属性。以下分析有关度量标准的应用和创建决策树的一个简单例子，假设以平面文件形式给出的数据集T，其中有14个样本，通过3个输入属性描述且属于所给的两个类之一：类1或类2。类1 假 96 C 类1 假 80 C 类1 假 80 C 类2 真 70 C 类2 真 80 C 类1 假 75 B 类1 真 65 B 类1 假 78 B 类1 真 90 B 类1 假 70 A 类2 假 95 A 类2 假 85 A 类2 真 90 A 类1 真 70 A 属性4 属性3 属性2 属性1 数据库T：训练例子的简单平面数据库其中：9个样本属于类1，5个样本属于类2，因此分区前的熵为： info(T)＝ -9/14.log2(9/14) -5/14.log2(5/14) = 0.940比特根据属性1把初始样本集分区成3个子集（检验x1表示从3个值A，B或C中选择其一）后，得出结果： Info x1(T)＝5/14（-2/5 log2(2/5) -3/5 log2(3/5) ） + 4/14（-4/4 log2(4/4) -0/4 log2(0/4) ） + 5/14（-3/5 log2(3/5) -2/5 log2(2/5) ） =0.694比特通过检验x1获得的信息增益是： Gain(x1) = 0.940 – 0.694 = 0.246比特如果该检验和分区是基于属性3的（检验x2表示从真或假两个值选择其一），类似地有： Info x2(T)＝6/14（-3/6 log2(3/6) -3/6 log2(3/6) ） + 8/14（-6/8 log2(6/8) -2/8 log2(2/8) ） =0.892比特通过检验x2获得的增益是： Gain(x2) = 0.940 – 0.892 = 0.048比特按照增益准则，将选择x1作为分区数据库T的最初检验。为了求得最优检验还必须分析关于属性2的检验，它是连续取值的数值型属性。 3. ID3算法的改进（1）离散化为了解决该问题，在用ID3算法挖掘具有连续性属性的知识时，应该首先把该连续性属性离散化。最简单的方法就是把属性值分成和两段。如身高可以分为1米以下，1米以上或者分为1.5米以下，1.5米以上。如何选择最佳的分段值呢？对任何一个属性，其所有的取值在一个数据集中是有限的。假设该属性取值为，则在这个集合中，一共存在m-1个分段值，ID3算法采用计算信息量的方法计算最佳的分段值，然后进一步构建决策树。 ID3算法的扩展是C4.5算法， C4.5算法把分类范围从分类属性扩展到数字属性。 1. C4.5算法概述 C4.5算法是ID3算法的扩展，它的改进部分是：能够处理连续型的属性。首先将连续型属性离散化，把连续型属性的值分成不同的区间，依据是比较各个属性Gian值的大小。缺失数据的考虑：在构建决策树时，可以简单地忽略缺失数据，即在计算增益时，仅考虑具有属性值的记录。提供两种基本的剪枝策略：子树替代法：用叶结点替代子树。子树上升法：用一棵子树中最常用的子树来代替这棵子树。 5.5 分类规则挖掘的C4.5 算法剪枝目的是降低由于训练集存在噪声而产生的起伏。 2. 离散化的方法把连续型属性值离散化的具体方法是：1）寻找该连续型属性的最小值，并把它赋值给MIN，　　寻找该连续型属性的最大值，并把它赋值给MAX；2）设置区间 [MIN，MAX] 中的N个等分断点Ai，它们分别是　　　　　　　　　　　　　　Ai = MIN + （（MAX – MIN）/ N）* i　　　　　　　　　　　　　　其中，i = 1 , 2 , ... , N3）分别计算把[MIN，Ai]和（Ai，MAX）（i = 1 ,2 , ... , N）作为区间值时的Gain值，并进行比较。4）选取Gain值最大的Ak做为该连续型属性的断点，把属性值设置为[MIN，Ak]和（Ak，MAX）两个区间值。对于前面例子中的数据库T，分析属性2分区的可能结果，分类后得出属性2的值的集合是： {65,70,75,78,80,85,90,95,96} 按照C4.5算法，选择每个区间的最小值作为阈值，即： {65,70,75,78,80,85,90,95}共8个值，从中选取最优的

您可能关注的文档

文档评论（0）

ctuorn0371 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第5章节数据分类-决策树.pptVIP