- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第七 决策树2
在具备可用的训练和检验样本的情况下,决策树修剪的基本思想是去掉那些对未知检验样本的分类精度没有帮助的部分树(子树),生成一个更简单,更容易理解的树。有两种改进的递归分区方法: 1. 在某些情况下决定不把样本集合分区得更细。停止准则通常是基于一些统计检验,如χ2检验:如果分区前后分类精度没有显著的不同,那么用当前的点作为一个叶。该方法称为预剪法。 2.用所选的精度准则回头去除树的一些点。称为后修剪。C4.5采用后修剪方法,但它用具体的方法评估预测误差率,该方法称为悲观修剪。基本思想: 对于树中的每个节点,可以用二项式分布统计表计算置信极限的上限Ucf的估计值。参数Ucf是所给节点的|Ti|和E的函数。C4.5用25%置信度,比较所给节点Ti的U25%(|Ti|/E)与它的叶的加权置信度。权值是每个叶的样本的总数。基本思想: 如果子树中的某个根节点的预测误差比叶的U25% (子树的预测误差)加权和小,那么用它的根节点替换该子树,变成修剪后的树的一个新叶。例如,决策树的子树如图7-9所示,根节点的子节点是用相应的类和参数(|Ti|/E)表示的叶。问题是估计修剪子树并用它的根节点替换它作为一个新的归纳叶节点的概率。为了分析用叶节点替换子树的概率,必须计算被替换节点和初始树的预测误差PE。用默认置信度25%,上限置信极限可从统计表中求得: U25%(6,0)=0.206, U25%(9,0)=0.143 U25%(1,0)=0.750, U25%(16,1)=0.157初始树和被替换节点的预测误差是: PEtree=6*0.206+9*0.143+1*0.750=3.257 PEtree=16*0.157=2.512被替换的节点比当前的决策树的预测误差低,修剪决策树并用新的叶节点替换子树是可行的。常见的六种修剪技术:1.MCCP(Minimal cost-complexity Pruning)-用于CRAT系统。2.REP(Reduced Error Pruning) 。3.MEP(Minimal Error Pruning) 。4.PEP(Pessimistic Error Pruning) –用于ID3。5.EBP(Error Based Pruning)-用于C4.5。6.bootstrap。7.5 C4.5 算法:生成决策规则大型的决策树较难理解,因为每个节点都有先行节点的检验结果建立的具休环境。为了理解它,可以把到达每个叶的路径转换成IF-THEN生成规则。这种规则叫做决策规则。所有叶节点的决策规则集能够与树节点一样对样本进行分类。图7-10所示是决策树转换成决策规则的一个例子。分类模型中决策规则的数量可能非常大,可以删除那些不影响规则集的正确性的多余条件,对规则进行概化。规则条件的删除准则如下: 设规则R是:If A Then 类-C 更一般化的规则R’是:If A’ Then 类-C其中A’是A(A=A’∪X)中删掉条件X得到的。数据库中满足条件A’的每个样本可以满足也可以不满足扩展条件A。我们可以将满足条件A’中的每个样本按是否满足条件A构建一个列联表,如表7-3所示。由此可得: 规则R的误差率估计:Ucf(Y1+E1,E1) 规则R’的误差率估计:Ucf(Y1+Y2+E1+E2,E1+E2)如果R’的误差估计比R的大,删除没有意义。C4.5算法不是去观察被删除的条件的所有可能的子集,而是进行贪心法删除:每一步删除一个最小悲观误差的条件。这类算法并不能保证每一步的最小会使全局最小。例如:表7-4是规则R的列关联表。初始规则R的误差估计: Ucf(Y1+E1,E1)= Ucf(9,1)=0.183概化规则R’的误差估计: Ucf(Y1+Y2+E1+E2,E1+E2)=Ucf(16,1)=0.157后者误差率比前者小,可以替换。问题是规则概化使规则不再是相互排斥和完备的,会出现一些满足多个规则的样本和没有规则的样本。对于“多规则满足”时,C4.5采用冲突解决方案。对于没有规则覆盖的样本采用默认规则或默认类。默认类的合理选择是训练集中出现最多的类。C4.5采用仅选择包含最多训练样本而不是被任何规则包含的类来作为默认类。简化决策树和决策规则的另一种方法是对分类数据的属性值进行分组。用分组来减少属性值的数量在构建分类模型时我们所关心的是训练数据的不充分可能不能发现有用的模式,或发现了这些模式但模型极其复杂。图7-11是属性值分组前后决策规则的例子。7.6 决策树和决策规则的局限性和许多统计方法不一样,逻辑方法不依赖属性值的分布或属性独立性的假设,而且更健壮,但也有一些缺点和局限性。如果数据样本在N-维空间用图形表示,其中N是属性的数据,那么一个逻辑分类器把空间划分成几个区域,每个域有一类标识。根据新样本落进的区域确定其类别。用
原创力文档


文档评论(0)