决策树C4.5算法解析.pptx

下载文档 降价啦

66
0
约 13页
2016-08-07 发布于湖北
举报
版权申诉
保障服务

决策树C4.5算法解析.pptx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘 C4.5算法 2016.04.07 决策树算法 1993年由Quilan提出的C4.5算法(对ID3的改进) C4.5比ID3的改进: 1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。 C4.5算法优点：产生的分类规则易于理解，准确率较高。 C4.5算法缺点：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。 C4.5算法 C4.5算法信息熵 1948年，香农提出了“信息熵”的概念，解决了对系统信息的量化度量问题。香农认为信息的准确信息量可以用下面的信息熵公式计算：一个系统越是有序，信息熵就越低；反之，一个系统越乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个衡量。信息增益率 C4.5算法与ID3不同，C4.5采用基于信息增益率(information Gain Ratio)的方法选择测试属性，信息增益率等于信息增益对分割信息量的比值。 GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F) 设样本集S按离散属性F的V个不同的取值划分为，共V个子集定义分割信息量Split(S, F)：那么信息增益率为： C4.5算法离散化处理：将连续型的属性变量进行离散化处理，形成决策树的训练集把需要处理的样本（对应根节点）或样本子集（对应子树）按照连续变量的大小从小到大进行排序假设该属性对应的不同的属性值一共有N个，那么总共有N-1个可能的候选分割阈值点，每个候选的分割阈值点的值为上述排序后的属性值中两两前后连续元素的中点用信息增益率选择最佳划分连续型属性 C4.5算法缺缺失值：在某些情况下，可供使用的数据可能缺少某些属性的值。例如(X, y)是样本集S中的一个训练实例，X=(F1_v, F2_v, …Fn_v)。但是其属性Fi的值Fi_v未知。处理策略：处理缺少属性值的一种策略是赋给它结点t所对应的训练实例中该属性的最常见值另外一种更复杂的策略是为Fi的每个可能值赋予一个概率。例如，给定一个布尔属性Fi，如果结点t包含6个已知Fi_v=1和4个Fi_v=0的实例，那么Fi_v=1的概率是0.6，而Fi_v=0的概率是0.4。于是，实例x的60%被分配到Fi_v=1的分支，40%被分配到另一个分支。这些片断样例（fractional examples）的目的是计算信息增益，另外，如果有第二个缺少值的属性必须被测试，这些样例可以在后继的树分支中被进一步细分。(C4.5中使用) 简单处理策略就是丢弃这些样本属性值缺失 C4.5算法过拟合问题过拟合：有监督的算法需要考虑泛化能力，在有限样本的条件下，决策树超过一定规模后，训练错误率减小，但测试错误率会增加。为了避免过拟合，采用剪枝技术。剪枝：控制决策树规模的方法称为剪枝，一种是预剪枝，一种是后剪枝。所谓先剪枝，实际上是控制决策树的生长；后剪枝是指，对完全生成的决策树进行修剪。预剪枝（pre-pruning）： 1) 数据划分法。划分数据成训练样本和测试样本，使用用训练样本进行训练，使用测试样本进行树生长检验。 2) 阈值法。当某节点的信息增益小于某阈值时，停止树生长。 3) 信息增益的统计显著性分析。从已有节点获得的所有信息增益统计其分布，如果继续生长得到的信息增益与该分布相比不显著，则停止树的生长。优点：简单直接；缺点：对于不回溯的贪婪算法，缺乏后效性考虑，可能导致树提前停止。 C4.5算法过拟合问题后剪枝（post-pruning）：减少分类错误修剪法。使用独立的剪枝集估计剪枝前后的分类错误率，基于此进行剪枝。最小代价与复杂性折中的剪枝。对剪枝后的树综合评价错误率和复杂性，决定是否剪枝。最小描述长度准则。最简单的树就是最好的树。对决策树进行编码，通过剪枝得到编码最小的树。规则后剪枝。将训练完的决策树转换成规则，通过删除不会降低估计精度的前件修剪每一条规则。优点: 实际应用中有效缺点：数据量大时，计算代价较大。常见的后剪枝方法有：Reduced-Error Pruning(REP,错误率降低剪枝）、Pessimistic Error Pruning(PEP，悲观剪枝）和Cost-Complexity Pruning(CCP、代价复杂度) C4.5算法过拟合问题决策树方法中的 CART、ID3、C4.5 算法主要采用后剪枝技术。后剪枝操作是一个边修剪边检验的过程，一般规则标准是：在决策树的不断剪枝操作过程中，将原样本集合或新数据集合作为测试数据，检验决策树对测试数