决策树和决策规则培训教材.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
该检验所获得的信息系数F(F=13/14)修正:   Gain(x1)=13/14(0.961-0.747)=0.199 该值比上个例子的值0.216小。然后,该分区信息仍是根据整个训练集来确定的,而且更大,因为对未知值有一个额外的类别。 Split-info(xi) =-(5/14log(5/14)+3/14log(3/14) +5/14log(5/14)+1/14log(1/14))=1.876 另外,每个样本都有一个相关的新参数,即概率。显然,当一个值已知的样本从T分配给Ti时,它属于Ti的概率是1,属于其他所有子集的概率是0。 当一值是未知时,只能得出不稳定的概率描述。因此C4.5和每个子集Ti中的每个样本是用权重w联系起来的,它表示属于每个子集的样本概率。 为了使该解决方法更具一般性,必须认为分区前样本的概率并不总是等于1。因此,分区后丢失值的新参数wnew为: wnew=wold·P(Ti) 对于属性1的检验x1分区结果,丢失值的记录将被表示在3个子集中。如图7-7所示。 因为最初的(旧的)w值等于1,新的权值wi等于概率5/13,3/13,和5/13。在C4.5中,Ti的算式如下: |T1|=5+5/13, |T2|=3+3/13, |T3|=5+5/13 对属性2和属性3检验分区,最终决策树如图7-8中所示的形式。 上图与图7-6结构相同,但是因为最终分类的不明确性,每个决策都以形式(|Ti|/E)和两个参数关联。|Ti|是到叶节点的部分样本和,E是属于除了指定类以外的类的样本的数量。 2.4/0.4 例如,(3.4/0.4)的意思是:3.4(3+5/13)个训练样本到达叶节点,其中0.4(5/13)并不属于分配给叶的类。 可以用百分数表示参数|Ti|和E: 3/3.4·100%=所给叶的88%的样本将被分给类2 0.4/3.4·100%=所给叶的12%的样本将被分给类1 就业工场数据中心 第七章 决策树和决策规则 本章目标 分析解决分类问题的基于逻辑的方法的特性. 描述决策树和决策规则在最终分类模型中的表述之间的区别. 介绍C4.5算法. 了解采用修剪方法降低决策树和决策规则的复杂度. 决策树和决策规则是解决实际应用中分类问题的数据挖掘方法。 一般来说,分类是把数据项映射到其中一个事先定义的类中的这样一个学习函数的过程。由一组输入的属性值向量(也叫属性向量)和相应的类,用基于归纳学习算法得出分类。 学习的目标是构建一个分类模型,通常也叫分类器。它可以根据有效的属性输入值预测一些实体(所给样本)的类。是一个在样本其他属性已知的情况下预测另外一个属性(样本的类)的模型(分类的结果)。 7.1 决策树 从数据中生成分类器的一个特别有效的方法是生成一个决策树。它是一种基于逻辑的方法,通过一组输入-输出样本构建决策树的有指导学习方法。 决策树包含属性已被检验的节点,一个节点的输出分枝和该节点的所有可能的检验结果相对应。 图7-2是一个简单的决策树。该问题有两个属性X,Y。所有属性值X1和YB的样本属于类2。不论属性Y的值是多少,值X 1的样本都属于类1。 对于树中的非叶节点,可以沿着分枝继续分区样本,每一个节点得到它相应的样本子集。 生成决策树的一个著名的算法是Quinlan的ID3算法,C4.5是它改进版。 ID3算法的基本思路: 从树的根节点处的所有训练样本开始,选取一个属性来划分这些样本。对属性的每一个值产生一分枝。分枝属性值的相应样本子集被移到新生成的子节点上。 这个算法递归地应用于每个子节点,直到一个节点上的所有样本都分区到某个类中。 到达决策树的叶节点的每条路径表示一个分类规则。 该算法的关键性决策是对节点属性值的选择。ID3和C4.5算法的属性选择的基础是基于使节点所含的信息熵最小化。 基于信息论的方法坚持对数据库中一个样本进行分类时所做检验的数量最小。ID3的属性选择是根据一个假设,即:决策树的复杂度和所给属性值表达的信息量是密切相关的。基于信息的试探法选择的是可以给出最高信息的属性,即这个属性是使样本分类的结果子树所需的信息最小。 7.2 C4.5算法:生成一个决策树 C4.5算法最重要的部分是由一组训练样本生成一个初始决策树的过程。决策树可以用来对一个新样本进行分类,这种分类从该树的根节点开始,然后移动样本直至达叶节点。在每个非叶决策点处,确定该节点的属性检验结果,把注意力转移到所选择子树的根节点上。 例如,如图7-3a为决策树分类模型,待分类有样本如图7-3b所示,由决策树分类模型可得出待分类样本为类2。(节点A,C,F(叶节点)) C4.5算法的构架是基于亨特的CLS方法,其通过一组训练

文档评论(0)

扶摇直上九万里 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档