- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘决策树PPT(自己制作)
决策树;什么是决策树?;什么是决策树?;叶结点;决策树构造流程;决策树的背景是什么?; 在影视领域,大数据运用的成功案例当数美剧《纸牌屋》。该剧的制作方既不是电视台,也不是传统的电影公司,而是一家视频播放网站。2012年,视频网站Netflix开始准备推出自制剧。在决定拍什么、怎么拍时,Netflix抛开了传统的制作方式,启用大数据。通过在该网站上3000多万订阅用户每天的点击操作,如收藏、推荐、回放、暂停、搜索请求等,Netflix进行精准分析,将这些数据用于倒推前台的影片生产。;大数据的到来使得数据挖掘技术得到广泛发展;决策树的起源是CLS(Concept Learning System),CLS是由Hunt、Marin和Stone为了研究人类概念模型而得来的,于1966年提出,该模型为很多决策树算法的发展奠定了很好的基础。;1993年,J.R.Quinlan又提出了C4.5算法,克服了ID3算法的一些不足。;ID3算法实例;ID3算法缺点;C4.5算法;2) 处理含有带缺失值属性的样本;4) 规则的产生;从上面的改进描述可以看到,C4.5 相较ID3 有了许多提高,纵然如此,C4.5 仍然存在一定的不足之处。它在测试属性的判断和样本集分割方面仍旧存在一定的偏向性,同时C4.5 生成的决策树还称不上简洁,特别是对于数据属性及其取值较多的情况。因此,人们还在不断改进现有算法和提出新的算法。;在计算机大量普及的今天,虽然内存和CPU 越来越大,越来越快,但终究会有许多数据在处理的时候无法全部放入内存计算。在众多决策树算法中,大部分算法需要在决策树生成与分类时将数据集全部放入主存,这在数据集规模较小情况下没有问题,但是一旦数据规模超出主存限制,这些算法就无能为力了。SLIQ(Supervised Learning In Quest)算法为了解决上述问题,提出了一些改进,并且它能保证分类精度不变。在SLIQ 决策树的生成过程中可以应用其他算法,其精度也与这些算法一直,不过对于大数量级的数据,SLIQ 效率大大提高,生成的模型也较为精简。除此之外,由于SLIQ 破除了主存的限制,则其对训练数据量和属性量都没有限制了。;1) 预排序。对于连续属性在每个内部结点寻找其最优分裂标准时,都需要对训练集按照该属性的取值进行排序,而排序是很浪费时间的操作。为此,SLIQ算法采用了预排序技术。所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序,以消除在决策树的每个结点对数据集进行的排序。具体实现时,需要为训练数据集的每个属性创建一个属性列表,为类别属性创建一个类别列表。;SLIQ算法由于采用了上述两种技术,使得该算法能够处理比C4.5大得多的训练集,在一定范围内具有良好的随记录个数和属性个数增长的可伸缩性。
然而它仍然存在如下缺点:; 由于SLIQ 仍存在对主存容量的限制,J.Shafter 等人提出了SPRINT(Scalable PaRallelizable INduction of decision Trees)算法,其在SLIQ 的基础上又做出了进一步的改进。该算法真正意义上破除了主存限制,使得决策树处理的数据规模达到了前所未有的境界。与此同时,并行算法的引入也使得SPRINT 算法具有更好的伸缩性。SPRINT 主要改进了SLIQ 的数据结构,合并SLIQ 中的类表与属性表,将这些数据结构均放于辅存之中。这样就使得算法在遍历属性列表寻找最优分裂时,只需使用辅存中的合并数据表。最后,SPRINT 采用的生成树策略是深度优先规则。;在上述介绍的决策树算法中,所有算法均是先通过一定的规则建立决策树,然后在进行决策树剪枝,从而达到生成最终决策树的目的。而PUBLIC(A Decision Tree that Integrates Building and Pruning)算法则是典型的预剪枝决策树算法。作为预剪枝技术生成的决策树与后剪枝决策树是一致的,PUBLIC 算法采用Gini 系数作为分裂标准,可以说是CART 算法的一种有效改进。;现在国内外关于决策树的研究现状是什么?;国内研究现状;决策树可以做什么?;疑问;2、决策树有很多种算法,有没有一种算法能够优于其他所有算法?;算法;4、在什么情况下用何种算法呢? ;(5) 比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成IF…THEN的形式;
(6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;
(7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分;
(8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。;四、quest(quick
文档评论(0)