数据流上挖掘决策树的的关键技术研究.pdfVIP

下载本文档

21
0
约1.43万字
约 7页
2017-09-11 发布于贵州
举报
版权申诉

数据流上挖掘决策树的的关键技术研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

维普资讯第 18卷第5期常州工学院学报 VO1．18 No．5 2005年 10月 JournalofChangzhouInstituteofTechnology Oct．20o5 数据流上挖掘决策树的关键技术研究黄树成刘丽 (1．常州工学院计算机信息工程学院，江苏常州 213002； (2．连云港职业技术学院计算机信息工程学院，江苏连云港 221002) 摘要：分类是一个重要的数据挖掘问题，在数据流上挖掘决策树分类器的关键技术是如何计算最佳分裂标准，现有的算法有的不能很好地处理数值型的属性，有的计算代价太高。本文首先采用数据结构CML(ClassMatrixList)收集计算最佳分裂标准仅需的信息；其次，将数值型的属性值分成适当的区间，根据它们 giniindex值的特殊性质，只需确定具有最大giniindex梯度的区间，因而可以快速地计算最佳分裂点，实现在流数据上快速建立决策树。关键词：决策树；流数据；giniindex梯度；最佳分裂标准中图分类号：TP301 文献标识码：A 文章编号：1671—0436(2005)05—0019—07 0 引言决策树分类器是一个重要的数据挖掘问题。在过去的10年中，在基于驻留磁盘的数据上构建决策树已得到充分的研究¨0，3，引。近年来，一些新的应用产生了一种新的数据模型：流数据 J，它们连续、快速、无限的产生。比如传感器数据、电信的呼叫记录、Intemet的数据流等。基于流数据的特性，在流数据上挖掘必须满足以下要求：至多作一次扫描整个数据；实时的响应；固定大小的内存空间。在决策树的构建过程中，对于每一个结点，必须计算每一个属性的最佳分裂点。一个数值型的属性 a可能含有大量的不同值( ，，… ．．Ⅳ)，对每一个值 (1≤f≤Ⅳ)，需要作形如a≤ 的分裂测试，导致很大的计算代价，无法满足实时陛要求。 PedroDomingos和GeoffHulten提出了VFDT算法 J，它是目前最成功的算法之一。它利用Hoef- fdjngbound，在给定的内存空间和时间训练出一个效果渐进于传统类型的学习器。遗憾的是，它仅能处理范畴型的属性。JoaoGama，RicardoRocha和PedroMedas在两个方面把VFDT扩展成VFDTc系统：一是能处理数值型的属性；另一是在树叶节点利用NaiveBayes分类器。对于一个数值型的属性的每一个值，需要执行形如a≤cp的测试来决定最佳的分裂点，导致较高的计算代价。RuomingJin和 GaganAgrawal采用NIP(numericalintervalpruning)来高效地处理数值型的属性 J。关键问题是如何划分数值型属性的范围和如何避免错误的剪接，包含最佳的分裂点的区间可能被错误地剪接掉，导致算法的无效；如果剩下的区间太多，计算最佳分裂点的代价是昂贵的。本文提出了一个简单的方法，在时间和存贮代价方面优于现有的算法。第一个技术来源于以下的事实：在建立决策树的过程中，树的每一个结点对应于流数据的一个简单随机样本，样本从流数据中随机抽取，样本的大小根据Hoeffdingbound来决定。对于正在处理的结点，无需将对应的样本分成对应左右孩子结点的两组。因为孩子结点对应的数据可以从流数据中抽取，现在仅需根据当前的样本计算最佳分裂标准，分裂标准由分裂属性和分裂谓词组成。基于分裂标准，对样收稿13期：2005-04-26 维普资讯常州工学院学报 2005矩本数据一个接一个的测试，从根结点开始一直到叶子结点，生成两组样本点，对应两个孩子结点，对每一组样本点计算各自的最佳分裂标准。递归地执行上述相同的过程建立决策树。因此，对于一个数值型属性的每一个不同值，为了计算与之对应的gi