数据流挖掘分类技术总结.docVIP

  • 10
  • 0
  • 约3.47千字
  • 约 8页
  • 2018-11-16 发布于福建
  • 举报
数据流挖掘分类技术总结

数据流挖掘分类技术总结   【摘要】随着计算机信息技术的迅速发展,数据流挖掘分类技术应用在许多领域。如金融市场、网络监控、电信数据管理、传感器网络等。然而,数据流挖掘和分类技术还有进一步改进和提高的空间,所以数据流挖掘将成为目前的研究热点。   【关键词】数据流挖掘;分类技术。应用领域;研究热点   中图分类号: C37 文献标识码: A 文章编号:   一、前言   本文着重介绍了近年来国际上数据流挖掘领域的研究成果,对数据流挖掘的关键技术从聚类、分类、频繁模式发现和时间序列分析四个方面进行了介绍,并对相关算法进行了归纳总结,最后提出了分类技术改进的新思路等问题,希望有一定的理论指导意义。   二、数据流挖掘概述   数据流,顾名思义,数据流就是连续产生的数据,数据流是实时、连续、有序、时变、无限的元组序列。数据流分类,在一个数据流S中,每一个元素S属于一个预定义的类型,有一个潜在的类标,但是类标的真实值未知。数据流分类通过对训练数据集进行学习,推导出一个有效的分类模型,预测未知数据的真实类标。与传统的数据集相比,数据流具有以下一些鲜明的特点 :   a有序性。数据流中的元组按时问有序生成 ,序号隐含于到来的时刻或直接以时间戳记录。   b不可再现性。数据流中的数据一旦流过处理节点就不会再次出现,除非进行特殊的保存。   c高速性。数据流数据高速地生成,即产生元组的速率较 高。   d无限性。数据流数据一直连续不断地产生,往往是无限量的。   e高维性。数据流往往包含大量的属性,即描述数据流的维数较高。   f动态性。产生数据流的概率分布模型是时变的,且变化的速率无法控制。   三、数据流挖掘的研究热点   目前对数据流挖掘的研究热点主要集中在数据流的聚类、分类、离群点检测和频繁模式挖掘等方面。   1.数据流聚类算法   聚类是指对一个已给的数据对象集合,将其中相似的对象划分为一个或多个组(称为“簇”)的过程 。同一个簇中的元素彼此相似 ,而与其它簇中的元素相异。数据流的聚类算法不同于传统数据的聚类算法,必须是增量式的,对聚类的表示要简洁,对新数据的处理要快速,对噪音和异常数据必须是稳健的。因此,基于数据流的聚类算法要在一个相对较小的内存空间上,对数据流进行一遍扫描后,把数据集合分为一个个簇集。典型的数据流聚类算法包括STREAM[、C1uStream、DenStrearnE1。   2.数据流分类算法   数据挖掘分类方法一般分为两个步骤:首先根据一组已知目标类别的训练样本生成一个分类器,用以描述数据属性与目标类别的概念:然后根据前面生成的分类器对其他未经分类的测试数据进行分类。分类方法根据训练样本获取方式的不同,分为增量式和非增量式两种。数据流挖掘的增量式方法一般都假设取得的样本是由平稳分布的数据中所获得。但现实世界中,新数据的概念可能会随着时问的延续而与历史数据产生改变,这种概念随着时问延续而改变的情形,称为概念漂移。在研究数据流挖掘的过程中,最初都是假设数据是平稳分布的,更注重的是如何解决数据流中大数据样本的问题。后来,在传统机器学习研究领域关于概念漂移解决方法的基础上,很多研究者提出了解决数据流上概念漂移问题的分类技术。本节将分析几种代表性的数据流分类算法。   (一)VFDT是一种基Z-Hoeffding不等式建立决策树的方法,它通过不断地将叶节点替换为决策节点而生成.其中每个叶节点都保存有关于属性值的统计信息,这些统计信息用于计算基于属性值的测试。根据不同的属性取值进入不同的分支,最终到达树的叶节点。当数据到达I1一P节点后,节点上的统计信息就被更新,同时该节点基于属性值的测试值就被重新计算。如果统计信息计算显示测试满足一定的条件,则该叶节点变为决策节点。新的决策节点根据属性的可能取值的数目产生相应数目的子女叶节点。VFDT很好地解决了数据流的样本过多的问题,所产生的决策树在大量减少处理样本数目的同时,能够保证和用全部样本所产生的决策树具有无限接近的精度。   (二)CVFDT,该算法在叶节点可能会产生概念漂移时产生一棵备选子树,并且在新子树变得更精确时用新子树替代原先的子树。每当有新样本到达,就把VFDT应用到滑动窗口上。   (三)CVFDT通过不断地把VFDT算法应用到固定大小的滑动窗体上,从不断变化的数据流上生成决策树。Wang等人提出了一种利用加权的多个分类器挖掘概念漂移数据流的方法。系统首先从数据流中训练几个分类器,同时根据测试数据集上的分类精度期望进行加权。集成学习方法既提高了学习模型的效率,也提高了分类精度。   3.数据流离群点检测算法   离群点检测问题是数据挖掘技术的重要研究领域之一,它被广泛应用于网络入侵抵御、信用卡恶意透支检测等风险控

文档评论(0)

1亿VIP精品文档

相关文档