数据流聚类算法CluStream介绍.pptVIP

  • 11
  • 0
  • 约4.47千字
  • 约 28页
  • 2017-08-15 发布于重庆
  • 举报
数据流聚类算法CluStream介绍.ppt

背景 随着计算机软硬件的不断升级,人们获取数据能力越来越高。在电信、金融、天气预报、网络入侵检测、传感器网络等领域出现了一种不同于传统静态数据的流数据。这种数据流有自己的特点。 数据流特点 1、数据实时达到 2、数据到达次序独立,不受系统控制 3、数据量是巨大的,不能预知其大小 4、单次扫描,数据一经处理,除非特意保存,否则不能再次被处理 数据流聚类 聚类是数据挖掘中一类重要的问题,在许多领域有其应用之处。 聚类定义:给定一个有许多数据元素组成的集合,我们将其分为不同的组(类、簇),使得组内的元素尽可能的相似,不同组之间的元素尽可能的不同。 由于数据流的特点,对它的聚类算法提出了新的要求。 数据流聚类算法要求 1、压缩的表达(概要数据) 2、迅速、增量地处理新到达的数据 3、快速、清晰地识别离群点 CluStream概要 C. C. Aggarwal等人在2003年提出了该著名的经典数据流聚类框架。它引入了簇和时间帧结构两个主要的概念,将数据流聚类过程分为在线部分(微聚类)和离线部分(宏聚类)。在线部分实时处理新到达的数据,并周期性的存储统计结果;离线部分就利用这些统计结果结合用户输入得到聚类结果。 CluStream的影响 CluStream两阶段框架是一个著名的框架,后续有许多算法在其基础上进行各方面的改进。它的在线部分可以实时处理较快速度的流数据,并得到统计结果。离线部分结

文档评论(0)

1亿VIP精品文档

相关文档