以ID算法为例探讨数据挖掘中决策树算法的应用.ppt

下载文档

1
0
约2.67千字
约 10页
2025-01-05 发布于北京
举报
版权申诉
保障服务

以ID算法为例探讨数据挖掘中决策树算法的应用.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

**以ID3算法为例探讨数据挖掘中决策树算法的应用主讲：郭佳决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan在1986年提出的著名的基于信息熵的ID3算法。接下来主要介绍ID3算法。决策树分类是一种从无次序、无规则的训练样本集中推理出决策树表示形式的分类规则的方法。它采用自顶向下的方法，在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支，在决策树的叶结点得到结论。所以从根结点到任一个叶结点所形成的一条路径就构成了一条分类规则，叶结点所标记的类别就构成了规则的结论内容。数据挖掘是由可以获取的数据驱动的，其成功在很大程度上取决于数据的数量和质量。我们应从大量的企业客户数据中找到与分析问题有关的样本数据子集。这样可以减少处理的数据量，但必须保证其样本子集具有典型的代表性。然后，进行数据预处理、分析，尽可能的对问题解决的要求进一步明确化、量化。按问题要求对数据进行增删或组合生成新的变量，以体现对问题状态的有效描述。将具体的客户年龄概化为=30、31-50、50三个年龄段，分别代表青年、中年和老年客户，将产品价格分为高、中、低三档等，具体见表1，有4个属性：客户年龄段、文化程度、销售地区、产品档次，类别是销售业绩，分为好和差两类。表1训练样本集合ID3算法是一种根据熵减（EntropyDeduce）理论选择最优的描述属性的方法。该算法从树的根节点处的所含训练样本开始，选取一个属性来区分这些样本。对属性的每一个值产生一个分支。分支属性的相应样本子集被移到新生成的子节点上。这个算法递归地应用于每个子节点，直到一个节点上的所有样本都分区到某个类中。算法中属性选择的基础是基于使节点所含的信息熵最小化。设S为一个包含s个数据样本的集合，类别属性可以取m个不同的值，对应于m个不同的类别，。计算初始熵假设为类别中的样本个数，若要对一个给定数据对象进行分类，决策树的构造过程如下：其中是任意一个数据对象属于类别的概率，可以按计算。具体方法如下：设一个属性A取v个不同的值。可以用属性A将集合S划分为v个子集，其中包含了集合S中属性A取值的数据样本。若属性A被选为测试属性，设01为子集中属于类别的样本数。则利用属性A划分当前样本集合所需要的信息（熵）可以计算如下：02属性的选择其中被当作第j个子集的权值，它是由子集中属性A取aj值的样本数之和除以S集合中的样本总数，E(A)的值越小，表示子集划分结果越好。I是对于一个给定子集的信息熵，计算方法为：ID3算法原理这样利用属性A对当前分支节点进行相应样本集合划分所获得的信息增益为：Gain(A)=-E(A)换言之，Gain(A)被认为是根据属性A取值进行样本集合划分所获得的信息熵的减少量，也可以说是由于知道属性A的值而导致的熵的期望压缩。ID3算法计算每个属性的信息增益，并从中选择出信息增益最大的属性作为给定集合的测试属性并由此产生相应的分支节点。所产生的节点被标记为相应的属性，并根据这一属性的不同取值分别产生相应决策树分支，每个分支代表一个被划分的样本子集。由表1可知：类标号属性有两个不同的值，因此有两个不同的类（即m=2）设类C1对应于good，类C2对应于bad。类good有18个样本，类bad有8个样本。为了计算每个属性的信息增益，先使用计算初始信息熵为：I(s1,s2)=I(18,8)=-下一步，需要计算每个属性的熵，即客户年龄age、文化程度education、产品档次level和销售区域area。先看age属性，观察age的每个样本值的good、bad分布，对每个分布分别计算信息熵：当age=30：s11=9s21=2时，I(s11,s21)=-当age在31-50间：s12=8s22=4时，I(s12,s22)=-当age=50：s13=1s23=2时，I(s13,s23)=-如果样本按age划分，对一个给定的样本分类所需的信息熵为：E(age)==0.8192类似的，可以得到：E(education)==0.7669E(le