数据挖掘6决策树分类算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘6决策树分类算法

数据挖掘(6):决策树分类算法 2015/08/29 ·? HYPERLINK /category/it-tech/ \o 查看 IT技术 中的全部文章 IT技术?·? HYPERLINK /tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/ 数据挖掘 分享到: HYPERLINK /share?uid=1745061 \t /90165/_blank 5  HYPERLINK /view/407?from=jobboleblog \o Gopher China 2015 上海大会 \t /90165/_blank Gopher China 2015 上海大会  HYPERLINK /view/546?from=jobboleblog \o R语言基础 \t /90165/_blank R语言基础  HYPERLINK /view/564?from=jobboleblog \o 去哪儿前端沙龙分享第三期 \t /90165/_blank 去哪儿前端沙龙分享第三期  HYPERLINK /view/367?from=jobboleblog \o Qnext前端交互沙龙 \t /90165/_blank Qnext前端交互沙龙 原文出处:? HYPERLINK /fengfenggirl/p/classsify_decision_tree.html \t /90165/_blank fengfenggirl(@也爱数据挖掘)??? 从这篇开始,我将介绍分类问题,主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇,欢迎关注和交流。 这篇先介绍分类问题的一些基本知识,然后主要讲述决策树算法的原理、实现,最后利用决策树算法做一个泰坦尼克号船员生存预测应用。 ? 一、分类基本介绍 物以类聚,人以群分,分类问题只古以来就出现我们的生活中。分类是数据挖掘中一个重要的分支,在各方面都有着广泛的应用,如医学疾病判别、垃圾邮件过滤、垃圾短信拦截、客户分析等等。分类问题可以分为两类: 归类:归类是指对离散数据的分类,比如对根据一个人的笔迹判别这个是男还是女,这里的类别只有两个,类别是离散的集合空间{男,女}的。 预测:预测是指对连续数据的分类,比如预测明天8点天气的湿度情况,天气的湿度在随时变化,8点时的天气是一个具体值,它不属于某个有限集合空间。预测也叫回归分析,在金融领域有着广泛应用。 虽然对离散数据和连续数据的处理方式有所不同,但其实他们之间相互转化,比如我们可以根据比较的某个特征值判断,如果值大于0.5就认定为男性,小于等于0.5就认为是女性,这样就转化为连续处理方式;将天气湿度值分段处理也就转化为离散数据。 数据分类分两个步骤: 构造模型,利用训练数据集训练分类器; 利用建好的分类器模型对测试数据进行分类。 好的分类器具有很好的泛化能力,即它不仅在训练数据集上能达到很高的正确率,而且能在未见过得测试数据集也能达到较高的正确率。如果一个分类器只是在训练数据上表现优秀,但在测试数据上表现稀烂,这个分类器就已经过拟合了,它只是把训练数据记下来了,并没有抓到整个数据空间的特征。 ? 二、决策树分类 决策树算法借助于树的分支结构实现分类。下图是一个决策树的示例,树的内部结点表示对某个属性的判断,该结点的分支是对应的判断结果;叶子结点代表一个类标。 上表是一个预测一个人是否会购买购买电脑的决策树,利用这棵树,我们可以对新记录进行分类,从根节点(年龄)开始,如果某个人的年龄为中年,我们就直接判断这个人会买电脑,如果是青少年,则需要进一步判断是否是学生;如果是老年则需要进一步判断其信用等级,直到叶子结点可以判定记录的类别。 决策树算法有一个好处,那就是它可以产生人能直接理解的规则,这是贝叶斯、神经网络等算法没有的特性;决策树的准确率也比较高,而且不需要了解背景知识就可以进行分类,是一个非常有效的算法。决策树算法有很多变种,包括ID3、C4.5、C5.0、CART等,但其基础都是类似的。下面来看看决策树算法的基本思想: 算法:GenerateDecisionTree(D,attributeList)根据训练数据记录D生成一棵决策树. 输入: 数据记录D,包含类标的训练数据集; 属性列表attributeList,候选属性集,用于在内部结点中作判断的属性. 属性选择方法AttributeSelectionMethod(),选择最佳分类属性的方法. 输出:一棵决策树. 过程: 构造一个节点N; 如果数据记录D中的所有记录的类标都相同(记为C类):则将节点N作为叶子节点标记为C,并返回结点N; 如果属性列表

您可能关注的文档

文档评论(0)

haihang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档