- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树介绍什么是决策树?决策树的背景是什么?决策树是怎么样发展而来的?决策树可以做什么?3.4.2.1.什么是决策树?决策树(Decision Tree),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。 通过把实例从根节点排列到某个叶子节点来分类实例; 叶子节点即为实例所属的分类; 树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值。1.根结点内部结点体温恒温冷血胎生非哺乳动物叶结点是否哺乳动物非哺乳动物经过预处理后的数据集,构建空树。选取未作判断的属性作为测试节点。决策树构造流程基于不同的划分标准决策树的背景是什么?每分钟的时间里,YouTube用户会上传48小时的新视频,全球电子邮件用户共计发出2.04亿封电子邮件Twitter平均每天产生3.4亿条消息,而Facebook每天则有40亿的信息扩散。沃尔玛每小时从顾客交易获得数据为100万G,印出来可装2000万个文件柜。2.世界上访问量最大的网站google,每天能处理的数据量高达20PB。 在影视领域,大数据运用的成功案例当数美剧《纸牌屋》。该剧的制作方既不是电视台,也不是传统的电影公司,而是一家视频播放网站。2012年,视频网站Netflix开始准备推出自制剧。在决定拍什么、怎么拍时,Netflix抛开了传统的制作方式,启用大数据。通过在该网站上3000多万订阅用户每天的点击操作,如收藏、推荐、回放、暂停、搜索请求等,Netflix进行精准分析,将这些数据用于倒推前台的影片生产。 通过对大数据的分析、挖掘,Netflix发现,其用户中有很多人仍在点播1990年BBC经典老片《纸牌屋》。这些观众中,又有许多人喜欢导演大卫?芬奇,大多爱看演员凯文?史派西出演的电影。Netflix大胆预测,一部影片如果同时满足这几个要素,就可能大卖。于是,《纸牌屋》出现了,并大获成功。整部剧集一次性在Netflix网站发布,供订阅者观看,完全颠覆了传统的每周一集的播出模式。大数据的到来使得数据挖掘技术得到广泛发展生活中很多地方都需要分类,各种分类技术的诞生为我们节省了大量的时间,决策树作为分类技术的一种,在零售、电子商务、金融、医疗卫生等方面有着广泛的运用。决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模型的算法,通过将大量数据有目的分类,找到一些有潜在价值的信息。决策树有哪些优点?1、决策树构造的分类器容易理解;2、决策树算法的运算速度要快于其他分类方法;3、决策树分类方法得到的结果的准确率要优于其他算法。决策树是怎么样发展而来的?决策树的起源是CLS(Concept Learning System),CLS是由Hunt、Marin和Stone为了研究人类概念模型而得来的,于1966年提出,该模型为很多决策树算法的发展奠定了很好的基础。1984年,L.Breiman等人提出了CART(Classification and Regression Tree)算法。3.1986年,Quinlan提出了ID3算法。1993年,J.R.Quinlan又提出了C4.5算法,克服了ID3算法的一些不足。几个指标熵只依赖于X的分布,与X的取值无关 熵(1) 熵越大,随机变量的不确定性越大. 条件熵 对数据集D进行分类的不确定性信息增益在特征A给定的条件下对数据集D进行分类的不确定性由特征A而使得对数据集D的分类的不确定性减少的程度信息增益大的特征具有更强的分类能力信息增益的算法ID3算法核心:在决策树各个节点上应用信息增益准则选择特征,递归的构建决策树。若D中所有的实例属于同一类Ck, 则T为单节点树,并将类Ck作为该节点的类标记,返回T;(2) 若A=?, 则T为单节点树, 则将D中实例数最大的类Ck作为该节点的类标记, 返回T;(3) 否则, 计算A中各特征对D的信息增益, 选择信息增益最大的特征Ag;如果Ag的信息增益小于阈值, 则置T为单结点树, 并将D中实例数最大的类Ck作为该节点 的类标记, 返回T;(5) 否则,对Ag的每一可能取值ai, 依Ag=ai将D分割为若干非空子集Di, 将Di中实例最大的类 作为标记, 构建子节点, 由节点及子节点构建成树T, 返回T;对第i个子节点, 以Di为训练集, 以A-{Ag}为特征集, 递归地调用步(1)~(5), 得到子树Ti, 返回Ti.ID3算法实例g(D,A3)最大, 所以特征A3为最优特征有自己的房子特征A3将数据集D划分成D1和D2两个子集.D1中只有同一类的样本点, 所以它为叶节点, 类标记为是.是否对D2从特征A1(年龄), A2(有工作), A4(信贷情况)中选取新的特征. 计算各个特征的信息增益:有工作是否是否是
您可能关注的文档
最近下载
- 大型会议会务工作流程清单(培训讲学版).docx VIP
- 零碳园区水资源循环利用方案.docx
- DB35∕T 836-2015 学生服装标准规范.docx VIP
- 心力衰竭病人的护理(完整版) .pptx VIP
- 明配管支吊架的计算表.xls VIP
- 活动一《塑料制品大点兵》课件 沪科黔科版综合实践活动二年级上册.pptx VIP
- 社区教育考试题及答案.doc VIP
- 污水处理优化软件:SuperPro Designer二次开发_(5).设备与物料流管理.docx VIP
- MSS SP-25中文 国外国际规范.pdf VIP
- 医院信息互联互通标准化成熟度测评方案(2025年版).docx VIP
原创力文档


文档评论(0)