分支合并对决策树归纳学习的影响ppt.pptVIP

下载本文档

4
0
约2.31千字
约 25页
2017-07-06 发布于福建
举报
版权申诉

分支合并对决策树归纳学习的影响ppt.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分支合并对决策树归纳学习的影响ppt

分支合并对决策树归纳学习的影响报告人：杨晨晓主要内容 1. 分支合并介绍 2. 分支合并研究现状 3. 两种分支合并算法 4. 实验结果 5. 一个定理 6. 信息补偿 7. 近期完成的工作分支合并介绍分支合并是预剪枝的一种，其主要思想是在树的产生过程中，根据某种方法将当前结点的两个儿子结点合并为一个（简称分支合并）并继续树的生长，直至完成树的构建。则最终产生的树与没有进行分支合并所产生的树，从结构、规模、复杂性、精度等方面上将有很大区别。分支合并介绍分支合并介绍分支合并研究现状洪家荣于1995在《一种新的决策树归纳学习算法》中最早提出：ID3及其它已有的决策树算法只是试图减少树的深度，而忽略了对决策树叶子数目的研究, 然而正是后者对决策树的精度起主要作用，因而提出一种基于属性聚类方法的决策树分支合并算法；王熙照，洪家荣在《On the Optimization of Fuzzy Decision Trees 》继续了上述的工作将此分支合并策略推广到了模糊决策树以及相应的优化问题；分支合并研究现状毕建东，杨桂芳于《基于熵的决策树分支合并算法》提出了一种基于熵的分支合并算法；最近，吴宣为，史斌宁在《一种新的简化ID3决策树的算法》中提出了一种属性层次互换的分支合并算法； Zengchang Qin 和Ionathan Lawry在《ROC Analysis of a Linguistic Decision Tree Merging Algorithm 》中研究了一种基于语义的向前分支合并算法。两种分支合并算法基于正例比的分支合并基于Margin的分支合并两种分支合并算法基于正例比的分支合并：考虑两类问题，将[0,1]区间分为若干个小区间，然后计算每个分支中正例所占比例，将比例落入同一个小区间的分支合并为一个分支。两种分支合并算法基于Margin的分支合并某种程度来说，数据间的Margin越大，则其联系越小，也就越容易分开。那么是否可以说Margin越小，数据间的联系就越大呢？基于这种考虑，提出新的分支合并算法：对于当前节点的所有子节点，计算每两个子节点间数据的Margin，将Margin比较小的分支合并为一个。实验结果表1 基于正例比例决策树和ID3的比较结果实验结果基于Margin的分支合并决策树算法与ID3比较结果。一个定理(证明过程省略) 假定在决策树的一个非叶节点上, 选择某个属性A作为扩展属性,A 的取值范围是，则可以通过某种合并策略可以将 m 个属性值中的某些进行合并。但无论采用什么样的分支合并策略，合并后属性A的信息增益都不会增加。信息补偿从上面定理的证明我们可以知道，进行分支合并后熵会增大，根据Quinlan 的极小熵原则，我们不应该进行分支合并。但是两个实验数据又说明进行分支合并后会降低树的规模，提高树的泛化能力。为了解释这个问题，我们提出了信息补偿。信息补偿在分支合并后，熵会增加，我们称为信息丢失，而在合并后继续选取扩展属性，这个时候如果一个分支得到的信息增益大于合并前两个分支的信息增益的加权和，那么我们可以说信息得到了一个补偿，称作信息补偿。目前这个工作正在研究当中。回顾（1）上次介绍了决策树归纳学习中的分支合并及其发展现状，又给出两种分支合并算法，分别是基于最大Margin的分支合并算法和基于正例比的分支合并算法。并且通过定理的形式证明了不管利用何种分支合并方法，合并后信息增益会减少，我们称之为信息丢失--IGLoss。回顾（2）而在进行分支合并后，继续为合并后的分支选取扩展属性，这个时候得到的信息增益，如果大于合并前两个分支继续选择扩展属性得到的信息增益的加权和，那么我们可以说信息得到了一个补偿，称作信息补偿--IGCom。回顾（3）我们希望信息补偿为正，而且如果补偿的信息比丢失信息多的话，即IGCom-IGLoss0，那么就可以说经过分支合并后，虽然存在信息丢失，但是通过继续选择扩展属性，可以对信息进行一个补偿的作用，也就在某种程度上为分支合并提供了解释。近期完成的工作对信息补偿进行实验提出新的分支合并算法—基于最大信息补偿分支合并算法信息补偿的实验对信息补偿的实验主要是基于正例比的分支合并。 BALANCE-SCALE 的实验结果表示：信息丢失 IGLoss0；信息补偿IGCom有正有负；并且IGCom-IGLoss0。信息补偿的实验这个实验并没有达到我们预想的结果。但是我们又进一步分析了IGCom0的情况，并且提出了一种基于IGCom的分支合并算法—基于最大IGCom的分支合并算法。基于最大IGCom的分支合并在某一个中间节点选择完扩展属