数据流分类算法剖析.docVIP

  • 7
  • 0
  • 约3.9千字
  • 约 8页
  • 2018-11-16 发布于福建
  • 举报
数据流分类算法剖析

数据流分类算法剖析   摘要:数据挖掘迎来黄金时代,静态数据上的分类技术已不能满足现实情况的需要了。大量的数据都是以数据流的形式出现,该文对数据流分类算法进行分析。所描述的主要算法有:Hoeffding树算法、快速决策树算法、概念自适应快速决策树、组合分类器、ID4算法。通过学习研究和实验对比结果发现,这些数据流上的分类算法依然有改进。   关键词:数据流;分类算法;概念漂移   中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)11-2445-02   Analysis of Classification Algorithms of Data Stream   BAI Xue-bing, WANG Bao-jun   (Zhejiang Institute of Communications, Hangzhou 311112, China)   Abstract: With the coming of golden age of data mining , static data classification technology cannot meet the real needs of the situation. Large amounts of data are based on data stream,this article mainly describles the classification algorithms.The main algoriflims includes ensemble classification,Hoeffding tree, ID4 and VFDT.Through the study of research and experimental comparison of the results,these gorithms performance still need improve.   Key words: data stream; classification algorithm; concept drift   1数据流分类概述   想象一个人造卫星上的遥感器不断的产生数据,其数据是海量的,而且是不断变化的无限的,这是数据流(Data Streams)的一个例子,它就像流动的水一样源源不绝。数据流技术作为数据挖掘中刚刚兴起的技术,越来越多数据挖掘专家关注它,开发数据流模型的信息管理系统及其相应算法已成为许多数据挖掘专家所要攻克的难题。高效、可行的数据流算法,可以使得在给定的有限的运行空间上,对数据流进行一次或较少次数的线性扫描,就可以实现数据挖掘的功能。   数据流分类是在数据流挖掘的一个分支。传统的数据分类方法是一种基于监督的学习方法,它可以分为两个过程来实现的:训练过程和检测过程。在训练过程中,采用一种数据模型通过一组数据集上对该模型进行训练,建立一个可以用于模型测试的数据模型,检测过程则是通过其他数据对该模型进行测试。常规的神经网络的分类算法,支持向量机的分类算法等等算法都是如此。但是这样的算法对数据流分类来说是不够的,因为数据流是源源不断的,一般对数据只能进行一次扫描,另外数据流分类算法的设计还要考虑到数据流处理中独有的“概念漂移”的问题,这导致传统的分类算法不可用。   数据流技术的所开发出来的软件可以被广泛地使用。工业控制软件,金融商业软件都很需要数据流的挖掘。   2数据流分类算法的基本要求   数据流是实时、连续、有序、时间变化的、无限的序列。数据流具有以下特点:时间顺序的,快速变化的,无限的,不可再现的。由于数据流的数据量太大,没有任何数据库可以容纳它,并且可以不断地对它进行扫描。因此如果想对数据流进行数据挖掘挖掘,必须开发能单遍扫描的,高效的算法。因此数据流分类算法需要满足以下条件。   首先该算法能够适应快速到达的信息,算法还要能满足一次读取的约束。同时该算法必须具有较小的时空复杂度。   其次该算法最好能解决数据漂移问题。数据漂移问题又称概念漂移,它是数据分类器的精度随着时间的不断前移而不断降低。因为随着时间的变化,流过来的数据模式是可能是不断变化的,。如果这种数据流分类算法能将数据的这种模式变化可以捕捉到,那么就可以提高分类器的更新效率。随着时间的变化,如果一个分类器失效的话,那么他的效率会很低。   最后该算法能够识别与响应数据流的变化。数据流变化可分为显著变化和噪声变化。显著变化是指数据流模式发生变化,噪声变化只是数据流模式没有改变只是数据流有轻微变化。一个好的分类算法应能对显著变化反应,而对噪声变化无反应。   3数据流基本分类算法   3.1 Hoeffding树算法   

文档评论(0)

1亿VIP精品文档

相关文档