- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘中决策算法的探讨
数据挖掘中决策树算法的探讨
唐华松, 姚耀文
(华南理工大学计算机系, 广东广州510640)
摘 要: 决策树算法是DM的一个活跃的研究领域。首先给出了DM中决策树算法的基本思想,然后讨
论了决策树算法中的难点问题,提出了利用熵与加权和的思想来选择取值的算法。
关键词: 数据挖掘;决策树;熵
中图分类号: TP301. 6 文献标识码: A 文章编号: 100123695 (2001) 0820018202
Research on Decision Tree in Data Mining
TANG Hua2song , YAO Yao2wen
( Dept . of Computer Science , South China University of Technology , Guangzhou Guangdong 510640 , China)
Abstract : Decision Tree is one of heated fields in Data Mining in recent years. This paper first gives the main thoughts of algorithmof
Decision Tree in Data Mining , then discusses the difficult problemof selecting value on division in Decision Tree , and put forward an
algorithm using the thoughts of entropy and weighted entropy to solve the problem with the examples.
Key words : DM;Decision tree ;Entropy
1 引言
数据库技术的迅速发展以及数据库管理系统的广
泛应用,导致人们积累了越来越多的数据。巨增的数
据背后蕴藏着丰富的知识,而目前的数据库技术虽可
以高效地实现数据的查询、统计等功能,但却无法发现
数据中存在的关系和规则,无法根据现有的数据预测
未来的发展趋势。数据库中存在着大量的数据,却缺
乏挖掘数据背后隐藏的知识的手段,出现了“数据爆炸
而知识贫乏”的现象。
在此背景下,数据库知识发现(KDD) 及其核心技术
—数据挖掘(DM) 便应运而生了。KDD 的研究内容是,
能自动地去处理数据库中大量的原始数据,从中挖掘
搜索出具有规律、富有意义的模式。它的发现过程主
要有三个步骤:定义要发现的问题;根据问题进行数据
搜索、模式抽取; 评价所发现的知识的好坏。三者之
中,核心技术是第二步,即数据搜索及模式抽取方法。
KDD = 问题处理+ DM+ 解释评价。由于问题处理和解
释评价的研究较成熟,所以目前KDD 的研究和实现难
点重点都集中在核心的DM上。
DM的核心技术算法主要有统计分析方法、神经元
网络、决策树方法,遗传算法等。其中,决策树是一种
常用于预测模型的算法,它通过将大量数据有目的地
分类,从中找到一些具有商业价值的,潜在的信息。
2 决策树的基本思想
决策树的结构,顾名思义,就像一棵树。它利用树
的结构将数据记录进行分类,树的一个叶结点就代表
某个条件下的一个记录集,根据记录字段的不同取值
建立树的分支;在每个分支子集中重复建立下层结点
和分支,便可生成一棵决策树。
例如,我们要分析一个网站的用户接受某项新服
务的情况,可以从中选取100 个用户,其中50 个接受这
项新服务的,50 个拒绝这项新服务的,然后通过建立决
策树来分析用户的情况,寻找一些潜在的规则信息。
图1 网站某项新服务的决策树结构
利用决策树进行分析,可以容易地找到一些具有
商业价值的潜在的规则信息。如在上例中,从决策树
结构图可以看出:在接受这项新服务的用户中有60 %
是使用新帐号的,在拒绝这项新服务的用户中有100 %
是使用旧帐号的;也就是说,如果用户是使用新帐号
的,那么他就有60 %的可能接受这项新服务,如果用户
是使用旧帐号的,那么他就有100 %的可能拒绝这项新
服务。当然,还可以从决策树中找到其它的规则信息,
这里就不再举例说明了。
3 决策树的技术难点
建决策树,就是根据记录字段的不同取值建立树
的分支,以及在每个分支子集中重复建立下层结点和
分支。建决策树的关键在于建立分支时对记录字段不
同取值的选择。选择不同的字段值,会使划分出来的
记录子集不同,影响决策树生长的快慢以及决策树结
· 8 1 · 计算机应用研究2001 年
? 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All r
文档评论(0)