数据挖掘6决策树分类算法资料.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据发掘6决议树分类算法资料 数据发掘6决议树分类算法资料 PAGE / NUMPAGES 数据发掘6决议树分类算法资料 数据发掘( 6):决议树分类算法 2015/08/29 ·IT 技术 · 数据发掘 分享到: 5 Gopher China 2015 上海大会 R 语言基础 去哪儿前端沙龙分享第三期 Qnext 前端交互沙龙 原文出处: fengfenggirl (@也爱数据发掘) 从这篇开始,我将介绍分类问题,主要介绍决议树算法、朴实贝叶斯、支持向量机、 B P 神经网络、懒散学习算法、随机丛林与自适应加强算法、分类模型选择和结果评论。 总合 7 篇,欢迎关注和沟通。 这篇先介绍分类问题的一些基本知识,而后主要叙述决议树算法的原理、实现,最后利 用决议树算法做一个泰坦尼克号海员生计展望应用。 一、分类基本介绍 物以类聚,人以群分,分类问题只古以来就出现我们的生活中。分类是数据发掘中一个 重要的分支,在各方面都有着宽泛的应用,如医学疾病鉴别、垃圾邮件过滤、垃圾短信 拦截、客户剖析等等。分类问题能够分为两类: 归类:归类是指对失散数据的分类,比方对依据一个人的字迹鉴别这个是男还 是女,这里的类型只有两个,类型是失散的会合空间 {男,女 }的。 展望:展望是指对连续数据的分类,比方展望明日 8 点天气的湿度状况,天气 的湿度在随时变化, 8 点时的天气是一个详细值,它不属于某个有限会合空间。预 测也叫回归剖析,在金融领域有着宽泛应用。 固然对失散数据和连续数据的办理方式有所不一样, 但其实他们之间互相转变,比方我们 能够依据比较的某个特色值判断,假如值大于 就认定为男性,小于等于 就以为 是女性,这样就转变为连续办理方式;将天气湿度值分段办理也就转变为失散数据。 数据分类分两个步骤: 1. 结构模型,利用训练数据集训练分类器; 2. 利用建好的分类器模型对测试数据进行分类。 好的分类器拥有很好的泛化能力,即它不单在训练数据集上能达到很高的正确率, 并且 能在未见过得测试数据集也能达到较高的正确率。 假如一个分类器不过在训练数据上表 现优异,但在测试数据上表现稀烂,这个分类器就已经过拟合了,它不过把训练数据记 下来了,并无抓到整个数据空间的特色。 二、决议树分类 决议树算法借助于树的分支结构实现分类。下列图是一个决议树的示例, 树的内部结点表 示对某个属性的判断,该结点的分支是对应的判断结果;叶子结点代表一个类标。 上表是一个展望一个人能否会购置购置电脑的决议树,利用这棵树,我们能够对新记录 进行分类,从根节点(年纪)开始,假如某个人的年纪为中年,我们就直接判断这个人 会买电脑,假如是青少年,则需要进一步判断是不是学生;假如是老年则需要进一步判 断其信誉等级,直到叶子结点能够判断记录的类型。 决议树算法有一个利处,那就是它能够产生人能直接理解的规则,这是贝叶斯、神经网 络等算法没有的特征; 决议树的正确率也比较高, 并且不需要认识背景知识就能够进行 分类,是一个特别有效的算法。决议树算法有好多变种,包含 ID3 、 、 、CAR T 等,但其基础都是近似的。下边来看看决议树算法的基本思想: 算法: GenerateDecisionTree(D,attributeList) 依据训练数据记录 D 生成一棵 决议树 . 输入: o 数据记录 D,包含类标的训练数据集 ; o 属性列表 attributeList ,候选属性集,用于在内部结点中作判断的属性 . o 属性选择方法 AttributeSelectionMethod() ,选择最正确分类属性的方法 . 输出:一棵决议树 . 过程: 1. 结构一个节点 N; 2. 假如数据记录 D 中的全部记录的类标都相同(记为 C 类):则将节点 N 作为叶子节点标志为 C,并返回结点 N ; 3. 假如属性列表为空: 则将节点 N 作为叶子结点标志为 D 中类标最多的类, 并返回结点 N; 4. 调用 AttributeSelectionMethod(D,attributeList) 选择最正确的分裂准则 splitCriterion; 5. 将节点 N 标志为最正确分裂准则 splitCriterion; 6. 假如分裂属性取值是失散的,并且同意决议树进行多叉分裂:附属性列 表中减去分裂属性, attributeLsit -= splitAttribute; 7. 对分裂属性的每一个取值 j:记 D 中知足 j 的记录会合为 Dj;假如 Dj 为空: 则新建一个叶子结点 F,标志为 D 中类标最多的类,并且把结点 F 挂在 N 下; 8. 不然: 递归调用 GenerateDecisionTree(Dj,attributeList) 获得子树结点 Nj ,将 Nj 挂在 N 下 ;

文档评论(0)

zdq7994 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档