数据流上的聚类演化分析.pdfVIP

  • 21
  • 0
  • 约3.53万字
  • 约 33页
  • 2019-06-21 发布于广东
  • 举报
第一章绪论 第1章绪论 1.1研究背景及意义 大规模网络监控、地理信息探测、电信通话记录分析、传感器网络数据检测以及社交网 络即时信息分析等实时数据处理系统产生了大量潜在无限的数据,数据流被广泛应用于此类 数据的建模。数据流以不同的更新速率连续地流进和流出处理系统,具有时间顺序性、不可 预测性、数据量和数据域潜在无限性。以上特征给实时数据流处理带来许多挑战,数据流实 时处理成为很多领域的基本问题,数据流挖掘和知识发现成为重要的研究方向。 数据挖掘的主要任务是抽取数据集中潜在的有用模式和知识,作为一种重要的挖掘手 段,聚类分析广泛地应用于包括市场研究、模式识别、数据分析和图像处理等诸多领域。数 据流聚类与传统静态数据集上的聚类不同之处在于,数据流天然的时变演化特征,要求数据 流聚类分析不仅要揭示数据隐藏结构模式,而且需要跟踪结构模式的演变过程。一方面,捕 捉聚类及其演化并及时向用户汇报,可以使用户知道“发生了什么”,更好地帮助用户及时 进行决策调整,例如,在网络监控数据流中,新聚簇出现可能意味着一批DOS攻击的开始, 获取这一变化有利于用户及时采取相关防范措施:在基于位置的应用中,位置聚簇的演化可 能反映出某地区出现了非常规活动。另一方面,数据流聚类演化分析也可以作为预处理手段, 为进一步数据流挖掘提供指导,例如,通过在部分流样本上进行聚类演化分析可以获取数据 流的数据分布及演化趋势,从而为数据流上其它挖掘应用提供一定的指导。 本文在数据流聚类演化研究方面作了相关探索,主要提出了无模型数据流聚类演化监 测和基于模型数据流聚类演化检测两类方法,前者采用近似的聚类结果序列来刻画聚类演化, 从降低时间与通讯开销角度出发,提出了相关技术及方法:后者采用两阶段框架,引入聚类 演化检测模型,给出了解决数据流聚类演化问题的另一种思路。 1.2课题研究现状 文献【1】中将传统的聚类算法主要分为5类:基于划分的方法、基于层次的方法、基于 密度的方法、基于网格的方法和基于模型的方法,在数据流背景下,研究者通过扩展以上各 种传统聚类算法,提出许多面向数据流的聚类算法。 基于划分的聚类方法的主要思想是,把包含多个数据元素的数据集进行划分,一个划 分代表一个簇。文献【2】,【3】提出一种通过改进k.means的得到的数据流聚类算法,算法目标 是在占用内存少、计算时间短、单遍扫描的约束下对数据流进行聚类。文献【4】提出使用分 而治之的思想改进k.nleails算法部件的性能,该算法首先将数据分块,然后通过计算各个小 数据块的汇总信息来得到最终的结果。文献[5】采用一种指数直方圈的数据结构来改进以上 算法,引入EH结构实现簇的合并,提高了概要结构的维护效率。文献【6】提出专门针对实时 数据流的STREAM算法,采用分治思想进行多级聚类,算法性能和聚类效果质量都得到了 东南大学硕士学位论文 很大提高。以上方法代表了实时数据流聚类研究的早期阶段,该类方法在内存建立、维护概 要数据结构以反应数据流特征,其不足之处在于只支持球形聚类、对高维数据流无能为力、 对噪声敏感以及无法进行演化分析等。 基于层次方法的基本思想是对数据元素集合进行层次的分解,形成一棵由聚类组成的树。 由于树结构较低的维护代价,相对来讲更适合于作为概要结构,因而此类方法得到了广泛研 说,CluStream并非一个算法,而是一个面向数据流聚类的处理框架,它把聚类过程分为在 线微聚类和离线宏聚类两个阶段,这种两阶段处理框架被后来的很多数据流聚类算法所采用。 通过引入投影技术和衰减簇结构,更好地支持高维数据流的聚类分析,不足之处在于需要在 聚类前指定参数,抗噪性较差,对数据流中数据的到来顺序敏感,不能有效处理任意形状的 类五种演化的算法,不足之处是无法处理聚类数目不能事先确定的数据流聚类。 基于密度的方法主要针对面向任意形状的簇的聚类问题。该类方法将高密度区域看作一 个聚类,并且这些聚类被低密度区域(噪声)所分割,密集的一般含义是指在给定的半径内, 具备超过了某个闽值数量的数据点,密度可达和密度相连是该方法的两个重要概念。 带噪声的大型空间数据集上的聚类,使用了密度的概念,同时引入了给定半径和最少点数限 制的核心对象概念,最终依靠核心对象及其邻域间的连通关系分析得到聚类结果。OPTICS 本身不产生聚类,而是为自动和交互的聚类分析计算一个簇次序,相当于为DBSCAN提供 广

文档评论(0)

1亿VIP精品文档

相关文档