- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘分类方法中决策树算法探究
数据挖掘分类方法中决策树算法探究
摘要:数据挖掘分类法是指从大量的数据库中自动地、智能地抽取一些行之有效的、可以相信的和理解的以及有用模式的过程。作为数据挖掘的重要内容之一的分类法,日前,分类已经被广泛运用于天气预测、顾客区分、医疗诊断、欺诈甄别、信用证实当中。在数据挖掘的众多分类方法中,决策树算法在大量数据环境中应用的最为广泛。该文通过对决策树算法的基本思想进行分析,对决策树算法中遇到的一些问题作出分析并提出建议,在阐述决策树算法现状的基础上,对决策树算法未来的发展趋势作出预测,希望能对决策树算法的使用者和研究者提供一定借鉴。
关键词:数据挖掘分类;决策树算法;分类
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)35-7904-02
我国在经济上的快速发展和社会上的进步,也给社会中的各种活动领域带来了大量数据,???们按照一定的模型把这些数据保存到不同的数据库中。这些数据库可以为科研和商业等活动的决策提供大量所需要的知识,使用数据挖掘分类法能够正确有效的取得这些信息。数据挖掘技术中的一个重要方法就是分类算法,分类方法主要是构建一个分类模型或者分类函数,这些函数或者分类模型必须要具有据数据集的特点,这些模型可以从某个已知类别中反映某个未知类别,目前的各种分类方法已经被逐渐运用到各行各业中,例如医院可以利用分类法进行医疗诊断、银行利用分类法进行信用评估、还可以运用到市场营销和高等教育等实际应用中,作为挖掘分类方法中的决策树算法在分类法中有着重要的作用,笔者在此对数据挖掘分类法中的决策树算法进行以下分析研究。
1 决策树算法概述
数据挖掘就是从模糊地、不完全地、大量地、有噪声的、随机的以及原始数据中提取隐藏在那里面的潜在的、我们预先不知道的有用信息知识的挖掘过程。作为数据挖掘分类法中一个分支的决策树算法起源于概念学习系统。决策树算法就是使用树的结构对数据进行分类,每个条件下的记录集就好比一棵树的叶节点,人们根据字段数据取值的不同,可以对决策树进行分支,在决策树各个分支的子集中再重复建立分支和决策树各下层节点,这样一棵决策树就形成了。
决策树算法最早是由Hunt等人提出来的,目前最有影响的是ID3和C4.5[1]。ID3主要是选择运用信息最大属性的增益值来进行样本训练划分的,其目的是能够使商在分裂系统时达到最小,以此来提高决策树算法的精确度和运算速度。当然ID3算法也有其自身的缺陷,例如可以运用信息增益作为分裂属性的标准,但是这种行为在取值时会不自然地偏向于取值较多属性,然而在大部分情况下,这种属性都不能为我们提供许多有价值的信息。C4.5是在改进ID3的中得到的一种新算法,这种算法不但能够对连续值的属性进行处理,而且可以对离散值的属性进行很好的处理,C4.5选择测试的标准主要是采用信息增益比,这在很大程度上弥补了ID3的一些不足,除此之外,我们还可以采用其他的一些决策树算法进行计算,例如CART 、QUEST、OC1、CAL5等。
2 决策树算法中遇到的问题
2.1取值问题
一个决策树的建立,必须要根据字段对不同取值的记录来建立对决策树进行分支,并且在每个决策树的子集分支中反复建立下层的分支与节叶点,构建决策树的关键在于对不同取值的分支阶段进行选择。选择不同的字段值,也会使得子集计录的划分值各不相同,不同的字段值还会对决策树结构的好坏和生长的快慢造成一定影响,从而影响到信息规则寻找的优劣。因此,构建一个好的决策树最主要的难点在于对分支取值进行良好的选择。好的分支取值的利用,不仅能够对决策树的结构产生良好的作用,还能够使决策树的生长速度起到良好的加快作用,从而使人们找到一个较好的规则信息[2]。相反,如果对决策树的分支仅仅只是依据一个比较差的取值来来决定,不但会影响决策树的生长的速度,还会导致结构性差和对决策树的分支过细这类不良现象的发生,因而难以发现那些本就可以得到有用规则的信息。
2.2数据过分近似问题
在决策树的运算过程中产生数据过分近似的原因主要有两点。(1)在寻找测试属性时各个属性在选择自己算法上都有自己的偏好,因而非常有可能会找到算法的偏好,可这并不是和种类真正相关的属性。想要在选择决策树时避免选到不相关属性是不容易确定的,所以要从决策树中把相关的属性删除,这种技巧也就是决策树的修剪法[3],修剪法可以分为后修剪方法和前修剪方法。后修剪方法是当决策树生长完成以后进行剪枝,前修剪方法主要是指在树的生长完成前就先进行剪枝。(2)由于物体本身的属性太多,其中有些和种类不相关,决策树算法很容易选到和自身种类不相关的属性。
3 决策树算法现状
可以采用决策树的算法共同对处理数据挖掘任务进行处理以得到有价值的模式和
文档评论(0)