- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章节 数据分类-决策树
现在考虑T被分区之后的一个相似度量标准,T按照一个属性检验X的几个输出进行分区。所需信息可通过这些子集的熵的加权和求得: n Info x(T)=-Σi=1 ((|Ti| /|T|).info(Ti)) 信息增益的计算公式: Gain(X) = Info(T) - Info x(T) 通过计算求出具有最高增益的属性。 以下分析有关度量标准的应用和创建决策树的一个简单例子,假设以平面文件形式给出的数据集T,其中有14个样本,通过3个输入属性描述且属于所给的两个类之一:类1或类2。 类1 假 96 C 类1 假 80 C 类1 假 80 C 类2 真 70 C 类2 真 80 C 类1 假 75 B 类1 真 65 B 类1 假 78 B 类1 真 90 B 类1 假 70 A 类2 假 95 A 类2 假 85 A 类2 真 90 A 类1 真 70 A 属性4 属性3 属性2 属性1 数据库T: 训练例子的简单平面数据库 其中:9个样本属于类1,5个样本属于类2,因此分区前的熵为: info(T)= -9/14.log2(9/14) -5/14.log2(5/14) = 0.940比特 根据属性1把初始样本集分区成3个子集(检验x1表示从3个值A,B或C中选择其一)后,得出结果: Info x1(T)=5/14(-2/5 log2(2/5) -3/5 log2(3/5) ) + 4/14(-4/4 log2(4/4) -0/4 log2(0/4) ) + 5/14(-3/5 log2(3/5) -2/5 log2(2/5) ) =0.694比特 通过检验x1获得的信息增益是: Gain(x1) = 0.940 – 0.694 = 0.246比特 如果该检验和分区是基于属性3的(检验x2表示从真或假两个值选择其一),类似地有: Info x2(T)=6/14(-3/6 log2(3/6) -3/6 log2(3/6) ) + 8/14(-6/8 log2(6/8) -2/8 log2(2/8) ) =0.892比特 通过检验x2获得的增益是: Gain(x2) = 0.940 – 0.892 = 0.048比特 按照增益准则,将选择x1作为分区数据库T的最初检验。 为了求得最优检验还必须分析关于属性2的检验,它是连续取值的数值型属性。 3. ID3算法的改进 (1)离散化 为了解决该问题,在用ID3算法挖掘具有连续性属性的知识时,应该首先把该连续性属性离散化。最简单的方法就是把属性值分成 和 两段。如身高可以分为1米以下,1米以上或者分为1.5米以下,1.5米以上。如何选择最佳的分段值呢?对任何一个属性,其所有的取值在一个数据集中是有限的。假设该属性取值为 ,则在这个集合中,一共存在m-1个分段值,ID3算法采用计算信息量的方法计算最佳的分段值,然后进一步构建决策树。 ID3算法的扩展是C4.5算法, C4.5算法把分类范围从分类属性扩展到数字属性。 1. C4.5算法概述 C4.5算法是ID3算法的扩展,它的改进部分是: 能够处理连续型的属性。首先将连续型属性离散化,把连续型属性的值分成不同的区间,依据是比较各个属性Gian值的大小。 缺失数据的考虑:在构建决策树时,可以简单地忽略缺失数据,即在计算增益时,仅考虑具有属性值的记录。 提供两种基本的剪枝策略: 子树替代法:用叶结点替代子树。 子树上升法:用一棵子树中最常用的子树来代替这棵子树。 5.5 分类规则挖掘的C4.5 算法 剪枝目的是降低由于训练集存在噪声而产生的起伏。 2. 离散化的方法 把连续型属性值离散化的具体方法是:1) 寻找该连续型属性的最小值,并把它赋值给MIN, 寻找该连续型属性的最大值,并把它赋值给MAX;2) 设置区间 [MIN,MAX] 中的N个等分断点Ai,它们分别是 Ai = MIN + ((MAX – MIN)/ N)* i 其中,i = 1 , 2 , ... , N3) 分别计算把[MIN,Ai]和(Ai,MAX)(i = 1 ,2 , ... , N)作为区间值时的Gain值,并进行比较。4)选取Gain值最大的Ak做为该连续型属性的断点,把属性值设置为[MIN,Ak]和(Ak,MAX)两个区间值。 对于前面例子中的数据库T,分析属性2分区的可能结果,分类后得出属性2的值的集合是: {65,70,75,78,80,85,90,95,96} 按照C4.5算法,选择每个区间的最小值作为阈值,即: {65,70,75,78,80,85,90,95}共8个值,从中选取最优的
文档评论(0)