以ID3算法为例探讨数据挖掘中决策树算法应用教案资料.pptVIP

下载本文档

0
0
约4.63千字
约 32页
2019-11-04 发布于天津
举报
版权申诉

以ID3算法为例探讨数据挖掘中决策树算法应用教案资料.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

以ID3算法为例探讨数据挖掘中决策树算法的应用;决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan在1986年提出的著名的基于信息熵的ID3算法。接下来主要介绍ID3算法。;由ID3算法得到的决策树;决策树分类是一种从无次序、无规则的训练样本集中推理出决策树表示形式的分类规则的方法。它采用自顶向下的方法，在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支，在决策树的叶结点得到结论。所以从根结点到任一个叶结点所形成的一条路径就构成了一条分类规则，叶结点所标记的类别就构成了规则的结论内容。 ;将具体的客户年龄概化为=30、31-50、50三个年龄段，分别代表青年、中年和老年客户，将产品价格分为高、中、低三档等，具体见表1，有4个属性：客户年龄段、文化程度、销售地区、产品档次，类别是销售业绩，分为好和差两类。;表1训练样本集合;ID3算法是一种根据熵减（Entropy Deduce）理论选择最优的描述属性的方法。该算法从树的根节点处的所含训练样本开始，选取一个属性来区分这些样本。对属性的每一个值产生一个分支。分支属性的相应样本子集被移到新生成的子节点上。这个算法递归地应用于每个子节点，直到一个节点上的所有样本都分区到某个类中。算法中属性选择的基础是基于使节点所含的信息熵最小化。;具体方法如下：设S为一个包含s个数据样本的集合，类别属性可以取m个不同的值，对应于m个不同的类别，。假设为类别中的样本个数，若要对一个给定数据对象进行分类，决策树的构造过程如下： (1)计算初始熵其中是任意一个数据对象属于类别的概率，可以按计算。 ;(2)属性的选择设一个属性A取v个不同的值。可以用属性A将集合S划分为v个子集，其中包含了集合S中属性A取值的数据样本。若属性A被选为测试属性，设为子集中属于类别的样本数。则利用属性A划分当前样本集合所需要的信息（熵）可以计算如下：;其中被当作第j个子集的权值，它是由子集中属性A取aj值的样本数之和除以S集合中的样本总数，E(A)的值越小，表示子集划分结果越好。 I 是对于一个给定子集的信息熵，计算方法为： ;这样利用属性A对当前分支节点进行相应样本集合划分所获得的信息增益为： Gain(A)= -E(A) 换言之，Gain(A)被认为是根据属性 A 取值进行样本集合划分所获得的信息熵的减少量，也可以说是由于知道属性A的值而导致的熵的期望压缩。 ;ID3 算法计算每个属性的信息增益，并从中选择出信息增益最大的属性作为给定集合的测试属性并由此产生相应的分支节点。所产生的节点被标记为相应的属性，并根据这一属性的不同取值分别产生相应决策树分支，每个分支代表一个被划分的样本子集。 ;由表1可知：类标号属性有两个不同的值，因此有两个不同的类（即m=2）设类C1对应于good，类C2对应于bad。类good有18个样本，类bad有8个样本。为了计算每个属性的信息增益，先使用计算初始信息熵为： I(s1,s2) = I(18,8)= - ;下一步，需要计算每个属性的熵，即客户年龄age、文化程度education、产品档次level和销售区域area。先看age属性，观察age的每个样本值的good、bad分布，对每个分布分别计算信息熵：当age=30：s11=9 s21=2时， I(s11,s21)= - 当age在 31-50间：s12=8 s22=4时，I(s12,s22)= - 当age=50：s13=1 s23=2时，I(s13,s23)= - 如果样本按age划分，对一个给定的样本分类所需的信息熵为： E(age)= =0.8192;类似的，可以得到： E(education)= =0.7669 E(level)= =0.853 E(area)=;利用上述属性对当前分支节点进行相应样本集合划分所获得的信息增益分别为： Gain(age) = I(s1,s2)- E(age) =0.895-0.8192=0.0758 Gain(education) = I(s