- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘分类方法中决策树算法探究
摘要:数据挖掘分类法是指从大量的数据库中自 动地、智能地抽取一些行之有效的、可以相信的和理解的以 及有用模式的过程。作为数据挖掘的重要内容之一的分类 法,日前,分类已经被广泛运用于天气预测、顾客区分、医 疗诊断、欺诈甄别、信用证实当中。在数据挖掘的众多分类 方法中,决策树算法在大量数据环境中应用的最为广泛。该 文通过对决策树算法的基本思想进行分析,对决策树算法中 遇到的一些问题作出分析并提出建议,在阐述决策树算法现 状的基础上,对决策树算法未来的发展趋势作出预测,希望 能对决策树算法的使用者和研究者提供一定借鉴。
关键词:数据挖掘分类;决策树算法;分类
中图分类号:TP311文献标识码:A文章编号:
1009-3044 (2013) 35-7904-02
我国在经济上的快速发展和社会上的进步,也给社会中 的各种活动领域带来了大量数据,人们按照一定的模型把这 些数据保存到不同的数据库中。这些数据库可以为科研和商 业等活动的决策提供大量所需要的知识,使用数据挖掘分类 法能够正确有效的取得这些信息。数据挖掘技术中的一个重 要方法就是分类算法,分类方法主要是构建一个分类模型或 者分类函数,这些函数或者分类模型必须要具有据数据集的 特点,这些模型可以从某个已知类别中反映某个未知类别, 目前的各种分类方法已经被逐渐运用到各行各业中,例如医 院可以利用分类法进行医疗诊断、银行利用分类法进行信用 评估、还可以运用到市场营销和高等教育等实际应用中,作 为挖掘分类方法中的决策树算法在分类法中有着重要的作 用,笔者在此对数据挖掘分类法中的决策树算法进行以下分 析研究。
1决策树算法概述
数据挖掘就是从模糊地、不完全地、大量地、有噪声的、 随机的以及原始数据中提取隐藏在那里面的潜在的、我们预 先不知道的有用信息知识的挖掘过程。作为数据挖掘分类法 中一个分支的决策树算法起源于概念学习系统。决策树算法 就是使用树的结构对数据进行分类,每个条件下的记录集就 好比一棵树的叶节点,人们根据字段数据取值的不同,可以 对决策树进行分支,在决策树各个分支的子集中再重复建立 分支和决策树各下层节点,这样一棵决策树就形成了。
决策树算法最早是由Hunt等人提出来的,目前最有影 响的是ID3和C4. 5[l]o ID3主要是选择运用信息最大属性 的增益值来进行样本训练划分的,其目的是能够使商在分裂 系统时达到最小,以此来提高决策树算法的精确度和运算速 度。当然ID3算法也有其自身的缺陷,例如可以运用信息增 益作为分裂属性的标准,但是这种行为在取值时会不自然地 偏向于取值较多属性,然而在大部分情况下,这种属性都不 能为我们提供许多有价值的信息°C4.5是在改进ID3的中得 到的一种新算法,这种算法不但能够对连续值的属性进行处 理,而且可以对离散值的属性进行很好的处理,C4.5选择测 试的标准主要是采用信息增益比,这在很大程度上弥补了 ID3的一些不足,除此之外,我们还可以采用其他的一些决 策树算法进行计算,例如CART、QUEST、0C1、CAL5等。
2决策树算法中遇到的问题
1取值问题
一个决策树的建立,必须要根据字段对不同取值的记录 来建立对决策树进行分支,并且在每个决策树的子集分支中 反复建立下层的分支与节叶点,构建决策树的关键在于对不 同取值的分支阶段进行选择。选择不同的字段值,也会使得 子集计录的划分值各不相同,不同的字段值还会对决策树结 构的好坏和生长的快慢造成一定影响,从而影响到信息规则 寻找的优劣。因此,构建一个好的决策树最主要的难点在于 对分支取值进行良好的选择。好的分支取值的利用,不仅能 够对决策树的结构产生良好的作用,还能够使决策树的生长 速度起到良好的加快作用,从而使人们找到一个较好的规则 信息[2]。相反,如果对决策树的分支仅仅只是依据一个比 较差的取值来来决定,不但会影响决策树的生长的速度,还 会导致结构性差和对决策树的分支过细这类不良现象的发 生,因而难以发现那些本就可以得到有用规则的信息。
2. 2数据过分近似问题
在决策树的运算过程中产生数据过分近似的原因主要 有两点。(1)在寻找测试属性时各个属性在选择自己算法上 都有自己的偏好,因而非常有可能会找到算法的偏好,可这 并不是和种类真正相关的属性。想要在选择决策树时避免选 到不相关属性是不容易确定的,所以要从决策树中把相关的 属性删除,这种技巧也就是决策树的修剪法[3],修剪法可 以分为后修剪方法和前修剪方法。后修剪方法是当决策树生 长完成以后进行剪枝,前修剪方法主要是指在树的生长完成 前就先进行剪枝。(2)由于物体本身的属性太多,其中有些 和种类不相关,决策树算法很容易选到和自身种类不相关的 属性。
3决策树算法现状
可以采用决策树的算法共同对处理数据
您可能关注的文档
最近下载
- 北师大版八年级上册数学 第5章 二元一次方程 问题解决策略:逐步确定 教案.docx VIP
- 一年级上册数学第一单元试卷.doc VIP
- 地震数据分析软件:SeisComP二次开发_地震监测系统部署与维护.docx VIP
- 小红书种草营销师模拟试题及答案.docx VIP
- 音乐人吉他课.pptx VIP
- 隧道紧急停车带专项施工方案 - 生产安全.docx VIP
- 北师版八年级上册数学精品教学课件 第五章 二元一次方程组 ☆问题解决策略_逐步确定 (2).ppt VIP
- 北师版八年级上册数学精品教学课件 第五章 二元一次方程组 ☆问题解决策略_逐步确定.ppt VIP
- 问题解决策略:逐步确定 2025-2026学年北师大版数学八年级上册.pptx VIP
- 音乐人吉他课.docx VIP
文档评论(0)