- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于分类的机器学习方法中的决策树算法.pdf
第 21卷第 1期 宁德师专学报(自然科学版) VoI.21No.1
2009年 2月 JournalofNingdeTeachersCollege (NaturalScience) Feb.2Oo9
基于分类的机器学习方法中的决策树算法
罗 芳 ,李志亮
(1.宁德师范高等专科学校计算机系,福建 宁德 352100;
2.华东师范大学信息科学技术学院计算机科学技术系,上海 200016)
摘要:阐述数据挖掘的分类及 目的,总结分类器的构造方法 ,讲述分类中决策树的构建和修剪.
关键词 :机器学习;神经网络 ;决策树
中图分类号:G311.138 文献标识码:A 文章编号:1004—2911(2009)01—0040—03
随着信息社会的发展,数据库中的数据呈现爆炸式增长,人类分析数据和从中提取有用信息的能力,远
远不能满足实际需要.虽然数据库管理系统可以高效实现数据录入 、检索和维护等管理功能,但不能反映数
据中的关联和规则 ,也不能根据现有的数据预测未来的发展趋势,即 “数据丰富,但信息贫乏”.所以迫切需
要一种能够 自动的把数据转换成有用信息和知识的技术与工具,于是数据挖掘和知识发现产生了.数据挖
掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术.这些信息是可能有潜在价值的,支持决策,可
以为企业带来利益,或者为科学研究寻找突破 口.而数据挖掘中一个很重要的任务就是把信息分类.
1 分类的定义
数据挖掘 中的分类可描述为:给定一训练数据 的集合 简称为训练集或训练数据库), 中的元素
记录由若干个属性描述,在所有属性中有且仅有一个属性作为类别属性,属性集合用矢量 = 1,…,
Xmi),mi随属性的不同而变化,当一属性的值域为连续域时,该属性称为连续属性,否则称为离散属性,
用 C表示类别属性 ,C=fc1,…,c),即数据集有 k个不同的类别.那么 ,就隐含的确定了一个从矢量X
到类别属性 C的映射函数 日;厂 )一C.
2 分类的目的
分类的 目的就是采用某种方法 (模型)将隐含函数表示出来.分类在数据挖掘中是一项非常重要的任
务 ,目前在商业上应用最多.其 目的是分析输入数据 ,通过在训练集 中的数据表现 出来的特性 ,为每一个
类找到一种准确的描述或者模型.这种描述常常用谓词表示,由此生成的类描述用来对未来的测试数据
进行分类 ,尽管这些未来的测试数据的列标签是未知的,仍可以由此预测这些新数据所谓的类 ,注意是
预测 ,而不能肯定 ,也可 以由此对数据中的每一个类有更好 的理解 ,也就是说 ,获得了对这个类的知识.
分类和同归都可用于预测,预测的 目的是从利用历史数据记录中自动推导出给定数据的推广描述 ,从而
对未来数据进行预测.
3 分类器的构造方法
分类器的构造方法有统计方法 、机器学习方法 、神经 网络方法等.统计方法包括贝叶斯法和非参数
法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例.机器学习方法包括决策树
法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则.神经网络方法主要是
BP算法,它的模型表示是前向反馈神经网络,模型(由代表神经元的节点和代表连接权值的边组成的一
种体系结构),BP算法本质上是一种非线性判别函数.另外,最近又兴起了一种新的方法叫粗糙集,其知
识表示是产生式规则.其中从机器学习中引出的决策树算法是一种较为通用并被深入研究的分类函数
收稿 日期 :2008—10—20
作者简介:罗 芳 (1981一),女,助教,福建福安人,现从事高校计算机教学及研究.
E— maiJ:1u09929@l63.com
第 1期 罗 芳等:基于分类的机器学习方法中的决策树算法 ·41.
逼近方法,目前已形成了多种决策树算法,如CLS,ID3,CHAID,CART,FACT,C4.5.Gini,SEE5,SLIQ,SPTIN
I”等决策树算法.
4 决策树算法
分类器算法 中的决策树是一棵有向、无环树.决策树分类器算法通常分为两个阶段:决策树构建和
决策树修剪.
4.1 决策树构建
文档评论(0)