- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
第 18卷第5期 常 州 工 学 院 学报 VO1.18 No.5
2005年 10月 JournalofChangzhouInstituteofTechnology Oct.20o5
数据流上挖掘决策树的关键技术研究
黄树成 刘 丽
(1.常州工学院计算机信息工程学院,江苏 常州 213002;
(2.连云港职业技术学院计算机信息工程学院,江苏 连云港 221002)
摘要:分类是一个重要的数据挖掘 问题,在数据流上挖掘决策树分类器的关键技术是如何计算
最佳分裂标准,现有的算法有的不能很好地处理数值型的属性,有的计算代价太高。本文首先采用
数据结构CML(ClassMatrixList)收集计算最佳分裂标准仅需的信息;其次,将数值型的属性值分
成适当的区间,根据它们 giniindex值的特殊性质,只需确定具有最大giniindex梯度的区间,因而
可以快速地计算最佳分裂点,实现在流数据上快速建立决策树。
关键词:决策树;流数据;giniindex梯度;最佳分裂标准
中图分类号:TP301 文献标识码 :A 文章编号:1671—0436(2005)05—0019—07
0 引言
决策树分类器是一个重要的数据挖掘问题。在过去的10年中,在基于驻留磁盘的数据上构建决策
树已得到充分的研究¨0,3,引。近年来,一些新的应用产生了一种新的数据模型:流数据 J,它们连续、快
速、无限的产生。比如传感器数据、电信的呼叫记录、Intemet的数据流等。基于流数据的特性 ,在流数
据上挖掘必须满足以下要求:至多作一次扫描整个数据;实时的响应;固定大小的内存空间。
在决策树的构建过程中,对于每一个结点,必须计算每一个属性的最佳分裂点。一个数值型的属性
a可能含有大量的不同值( , ,… ..Ⅳ),对每一个值 (1≤f≤Ⅳ),需要作形如a≤ 的分裂测试,
导致很大的计算代价,无法满足实时陛要求。
PedroDomingos和GeoffHulten提出了VFDT算法 J,它是 目前最成功的算法之一。它利用Hoef-
fdjngbound,在给定的内存空间和时间训练出一个效果渐进于传统类型的学习器。遗憾的是 ,它仅能处
理范畴型的属性。JoaoGama,RicardoRocha和PedroMedas在两个方面把VFDT扩展成VFDTc系统:
一 是能处理数值型的属性 ;另一是在树叶节点利用NaiveBayes分类器。对于一个数值型的属性的每一
个值,需要执行形如a≤cp的测试来决定最佳的分裂点 ,导致较高的计算代价。RuomingJin和
GaganAgrawal采用NIP(numericalintervalpruning)来高效地处理数值型的属性 J。关键问题是如何
划分数值型属性的范围和如何避免错误的剪接,包含最佳的分裂点的区间可能被错误地剪接掉,导致算
法的无效;如果剩下的区间太多,计算最佳分裂点的代价是昂贵的。本文提出了一个简单的方法,在时
间和存贮代价方面优于现有的算法。
第一个技术来源于以下的事实:在建立决策树的过程中,树的每一个结点对应于流数据的一个简单
随机样本,样本从流数据中随机抽取 ,样本的大小根据Hoeffdingbound来决定。对于正在处理的结点,
无需将对应的样本分成对应左右孩子结点的两组。因为孩子结点对应的数据可以从流数据中抽取,现
在仅需根据当前的样本计算最佳分裂标准,分裂标准由分裂属性和分裂谓词组成。基于分裂标准,对样
收稿13期:2005-04-26
维普资讯
常州工学院学报 2005矩
本数据一个接一个的测试,从根结点开始一直到叶子结点,生成两组样本点,对应两个孩子结点,对每一
组样本点计算各 自的最佳分裂标准。递归地执行上述相同的过程建立决策树。因此,对于一个数值型
属性的每一个不同值,为了计算与之对应的gi
文档评论(0)