数据挖掘中决策算法的探讨.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘中决策算法的探讨

数据挖掘中决策树算法的探讨 唐华松, 姚耀文 (华南理工大学计算机系, 广东广州510640) 摘 要: 决策树算法是DM的一个活跃的研究领域。首先给出了DM中决策树算法的基本思想,然后讨 论了决策树算法中的难点问题,提出了利用熵与加权和的思想来选择取值的算法。 关键词: 数据挖掘;决策树;熵 中图分类号: TP301. 6    文献标识码: A    文章编号: 100123695 (2001) 0820018202 Research on Decision Tree in Data Mining TANG Hua2song , YAO Yao2wen ( Dept . of Computer Science , South China University of Technology , Guangzhou Guangdong 510640 , China) Abstract : Decision Tree is one of heated fields in Data Mining in recent years. This paper first gives the main thoughts of algorithmof Decision Tree in Data Mining , then discusses the difficult problemof selecting value on division in Decision Tree , and put forward an algorithm using the thoughts of entropy and weighted entropy to solve the problem with the examples. Key words : DM;Decision tree ;Entropy 1  引言 数据库技术的迅速发展以及数据库管理系统的广 泛应用,导致人们积累了越来越多的数据。巨增的数 据背后蕴藏着丰富的知识,而目前的数据库技术虽可 以高效地实现数据的查询、统计等功能,但却无法发现 数据中存在的关系和规则,无法根据现有的数据预测 未来的发展趋势。数据库中存在着大量的数据,却缺 乏挖掘数据背后隐藏的知识的手段,出现了“数据爆炸 而知识贫乏”的现象。 在此背景下,数据库知识发现(KDD) 及其核心技术 —数据挖掘(DM) 便应运而生了。KDD 的研究内容是, 能自动地去处理数据库中大量的原始数据,从中挖掘 搜索出具有规律、富有意义的模式。它的发现过程主 要有三个步骤:定义要发现的问题;根据问题进行数据 搜索、模式抽取; 评价所发现的知识的好坏。三者之 中,核心技术是第二步,即数据搜索及模式抽取方法。 KDD = 问题处理+ DM+ 解释评价。由于问题处理和解 释评价的研究较成熟,所以目前KDD 的研究和实现难 点重点都集中在核心的DM上。 DM的核心技术算法主要有统计分析方法、神经元 网络、决策树方法,遗传算法等。其中,决策树是一种 常用于预测模型的算法,它通过将大量数据有目的地 分类,从中找到一些具有商业价值的,潜在的信息。 2  决策树的基本思想 决策树的结构,顾名思义,就像一棵树。它利用树 的结构将数据记录进行分类,树的一个叶结点就代表 某个条件下的一个记录集,根据记录字段的不同取值 建立树的分支;在每个分支子集中重复建立下层结点 和分支,便可生成一棵决策树。 例如,我们要分析一个网站的用户接受某项新服 务的情况,可以从中选取100 个用户,其中50 个接受这 项新服务的,50 个拒绝这项新服务的,然后通过建立决 策树来分析用户的情况,寻找一些潜在的规则信息。 图1  网站某项新服务的决策树结构 利用决策树进行分析,可以容易地找到一些具有 商业价值的潜在的规则信息。如在上例中,从决策树 结构图可以看出:在接受这项新服务的用户中有60 % 是使用新帐号的,在拒绝这项新服务的用户中有100 % 是使用旧帐号的;也就是说,如果用户是使用新帐号 的,那么他就有60 %的可能接受这项新服务,如果用户 是使用旧帐号的,那么他就有100 %的可能拒绝这项新 服务。当然,还可以从决策树中找到其它的规则信息, 这里就不再举例说明了。 3  决策树的技术难点 建决策树,就是根据记录字段的不同取值建立树 的分支,以及在每个分支子集中重复建立下层结点和 分支。建决策树的关键在于建立分支时对记录字段不 同取值的选择。选择不同的字段值,会使划分出来的 记录子集不同,影响决策树生长的快慢以及决策树结 · 8 1 ·   计算机应用研究2001 年 ? 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All r

文档评论(0)

hai1956012 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档