- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树你技术分类
决策树分类技术研究
[摘 要】 决策树分类是一种重要的数据分类技术。该文通过对决策树分类方法的研究,进一步讨论了实际使用
过程中决策树学习出现的常见问题的解决方法。为实际应用提供了依据。
【关健词】 决策树;分类
1 引言
数据分类是数据挖掘中的一个重要问题,是一种有效的
KDD分析方法。数据分类通过分析训练集中的数据,对类建立
分类模型,然后利用这个分类模型,把数据库中的数据项映射到
给定类别中。近年来,数据分类技术已被广泛、有效地应用于科
学实验、医疗诊断、气象预报、信贷审核、商业预测等领域,引起
了工业界和学术界的关注。
依据其采用的分类模型,数据分类技术主要可分为:机器学
习方法(如决策树归纳)、统计方法(如贝叶斯分类和贝叶斯网
络)、神经网络方法、遗传算法、粗糙集和模糊逻辑技术等。
上述技术中,决策树技术是利用最广泛的分类技术。它有以
下优点:首先,决策树方法结构简单,便于人们理解;其次,决策
树模型效率高,对训练集数据量较大的情况较为适合;第三,决
策树方法通常不需要受训数据外的知识;第四,决策树方法具有
较高的分类精确度。
同时决策树技术也有一些不足,如对于大型数据库的可伸
缩性问题、对于非平衡数据进行分类时,剪枝会造成精确率的降
低等。
本文主要阐述了决策树分类的基本概念、算法以及实际使
用中如何解决某些常见的问题,如:测试属性选择的度量标准、
连续属性的离散化处理、处理缺少属性值、树剪枝与避免过度拟
合、分类法的准确率评估及提高和决策树的可伸缩性等。
2 决策树算法
2.,决策树的构造方法
决策树是一个类似于流程图的树结构,决策树通过把实例
从根节点排列到某个叶子节点来分类实例,叶子节点即为实例
所属的分类。 树上的每一个节点说明了对实例的某个属性的
测试,并且该节点的每一个后继分支对应于该属性的一个可能
值。决策树构造的基本算法是贪心算法,它以自顶向下递规的方
式构造判定树。算法的基本策略如下:
1)树以代表训练样本的单个节点开始。
2)如果样本都在同一个类,则该节点成为树叶,并用该类
标记。
3)否则,算法使用一种度量标准作为启发信息,选择能够
最好的将样本分类的属性,成为该节点的测试属性。
4)对测试属性的每一个已知的值,创建一个分枝,并据此
划分样本。
5)算法使用同样的过程,递归的形成每个划分上的样本子
决策树。当出现如下情况之一时,递归停止:(a)给定节点的所
有样本属于同一类。(b)没有剩余的属性来进一步划分样本或者
分枝中没有样本,这时使用多数表决,将给定的节点转换为树
叶,并用父节点中多数类来标记它。
2.2测试属性选择的度量标准
J.RossQuinlan提出了ID31% 法。在此算法中采用信息论
中的信息增益(informationgain)来衡量给定的属性区分训练样
例的能力。其计算方法如下:如果目标属性具有。个不同的值,
那么数据样例集S相对于c个状态的分类的嫡定义为Entorpy
⑤二艺Paog=pi;若A是S中的一个属性,Values(A)表示属性A
所有可能的集合,S.是S中属性A的值为v的子集,即S,=IseSI
A(s)=v),则属性A相对于样例集合S的信息增益Gain(S,A)被定
义为:Gain(S,A)=Entropy(S)一 艺
怜v.YY州 人】
iIsSddEntropy(S.)·这种方法使
生成的树平均深度较小,从而有较快的分类速度。但是,信息增
益度量存在一个内在偏置,它偏祖具有较多值的属性。
在此基础上,Quinlan又于1993年对ID3算法进行了补充
和改进,提出了更先进的C4.5[2】算法,提出了信息增益率的属
性度量方法。其定义如下:
GainRatio(S,A卜
Splulnformation(S,A)
其中,Spiltlnformation(S,A)--i各骨logA
分裂信息(SplitWonnation)用来衡量属性分裂数据的广度
和均匀性,避免了ID3算法所采用的信息增益倾向于选择取值
较多的属性。Quinlan通过试验,对若干属性测试标准做了比较,
发现信息增益率能得到更好的决策树,而且不易产生不平衡的
划分。
除了以上两种方法外,LopezdeMantaras在1991年提出了
基于距离(distance-based)的度量。这个度量标准定义了数据划
分间的一种距离尺度。其效果接近信息增益率的度量效果,且避
免了偏向有大量值的属性。此外,学者们还提出了Relief度量、
J一度量,G统计、X2统计以及最小描述长度(MDL)等多种属性
度量方法。对这些度量方法的研究和比较发现,没有一种度量方
法在属性选择和处理噪声等问题中占有绝对的优势。因此,在实
际构造决策树的过程中,要综合权衡效率和准确率等多种因素
选择恰当的度量方法。
2.3连
文档评论(0)