- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树 演讲:李伟能 单位:云南大学(数学与统计学院) 导师:孟捷 什么是决策树? 1. 决策树的背景是什么? 2. 3. 决策树是怎么样发展而来的? 4. 决策树可以做什么? 5. 现在国内外关于决策树的研究现状是什么? 什么是决策树? 1. 决策树(Decision Tree),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。 通过把实例从根节点排列到某个叶子节点来分类实例; 叶子节点即为实例所属的分类; 树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值。 叶结点 根结点 内部结点 体温 胎生 非哺乳动物 哺乳动物 非哺乳动物 恒温 否 冷血 是 决策树构造流程 经过预处理后的数据集,构建空树。 选取未作判断的属性作为测试节点。 基于不同的划分标准 决策树的背景是什么? 2. 沃尔玛每小时从顾客交易获得数据为100万G,印出来可装2000万个文件柜。 Twitter平均每天产生3.4亿条消息,而Facebook每天则有40亿的信息扩散。 世界上访问量最大的网站google,每天能处理的数据量高达20PB。 每分钟的时间里,YouTube用户会上传48小时的新视频, 全球电子邮件用户共计发出2.04亿封电子邮件 在影视领域,大数据运用的成功案例当数美剧《纸牌屋》。该剧的制作方既不是电视台,也不是传统的电影公司,而是一家视频播放网站。2012年,视频网站Netflix开始准备推出自制剧。在决定拍什么、怎么拍时,Netflix抛开了传统的制作方式,启用大数据。通过在该网站上3000多万订阅用户每天的点击操作,如收藏、推荐、回放、暂停、搜索请求等,Netflix进行精准分析,将这些数据用于倒推前台的影片生产。 通过对大数据的分析、挖掘,Netflix发现,其用户中有很多人仍在点播1990年BBC经典老片《纸牌屋》。这些观众中,又有许多人喜欢导演大卫?芬奇,大多爱看演员凯文?史派西出演的电影。Netflix大胆预测,一部影片如果同时满足这几个要素,就可能大卖。于是,《纸牌屋》出现了,并大获成功。整部剧集一次性在Netflix网站发布,供订阅者观看,完全颠覆了传统的每周一集的播出模式。 大数据的到来使得数据挖掘技术得到广泛发展 生活中很多地方都需要分类,各种分类技术的诞生为我们节省了大量的时间,决策树作为分类技术的一种,在零售、电子商务、金融、医疗卫生等方面有着广泛的运用。 决策树有哪些优点? 1、决策树构造的分类器容易理解; 2、决策树算法的运算速度要快于其他分类方法; 3、决策树分类方法得到的结果的准确率要优于其他算法。 决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模型的算法,通过将大量数据有目的分类,找到一些有潜在价值的信息。 决策树的起源是CLS(Concept Learning System),CLS是由Hunt、Marin和Stone为了研究人类概念模型而得来的,于1966年提出,该模型为很多决策树算法的发展奠定了很好的基础。 1986年,Quinlan提出了ID3算法。 1984年,L.Breiman等人提出了CART(Classification and Regression Tree)算法。 3. 决策树是怎么样发展而来的? 1993年,又提出了C4.5算法,克服了ID3算法的一些不足。 1996年,M.Mehta和R.Agrawal等人提出了一种高速可伸缩的有监督的寻找学习分类方法SLIQ(Supervised Learning In Quest)。 同年,J.Shafer和R.Agrawal等人提出可伸缩并行归纳决策树分类方法SPRINT(Scalable PaRallelizable Induction of Decision Trees) 1998年,R.Rastogi等人提出一种将建树和修剪相结合的分类算法PUBLIC(A Decision Tree that Integrates Building and Pruning) ID3算法实例 熵: 基尼指数: 分类误差: 其中c是类的个数,并且在计算熵时, 分裂属性标准 ID3算法缺点 ID3 算法选用最大信息增益的属性作为决策树分裂属性。在算法实际应用中,这种方法偏向于选择多值属性,但属性取值数目的多少与属性的匹配并无真正关联。这样在使用ID3算法构建时,若出现各属性值取值数分布偏差大的情况,分类精度会大打折扣。 ID3 算法本身并未给出处理连续数据的方法。 ID3 算法不能处理带有缺失值的数据集,故在进行算法挖掘之前需要对数据集中的缺失值进行预处理。 C4.5算法 C4.5 算法同样是由Qui
文档评论(0)