数据流上的聚类演化分析.pdfVIP

下载本文档

21
0
约3.53万字
约 33页
2019-06-21 发布于广东
举报

数据流上的聚类演化分析.pdf

第一章绪论第1章绪论 1．1研究背景及意义大规模网络监控、地理信息探测、电信通话记录分析、传感器网络数据检测以及社交网络即时信息分析等实时数据处理系统产生了大量潜在无限的数据，数据流被广泛应用于此类数据的建模。数据流以不同的更新速率连续地流进和流出处理系统，具有时间顺序性、不可预测性、数据量和数据域潜在无限性。以上特征给实时数据流处理带来许多挑战，数据流实时处理成为很多领域的基本问题，数据流挖掘和知识发现成为重要的研究方向。数据挖掘的主要任务是抽取数据集中潜在的有用模式和知识，作为一种重要的挖掘手段，聚类分析广泛地应用于包括市场研究、模式识别、数据分析和图像处理等诸多领域。数据流聚类与传统静态数据集上的聚类不同之处在于，数据流天然的时变演化特征，要求数据流聚类分析不仅要揭示数据隐藏结构模式，而且需要跟踪结构模式的演变过程。一方面，捕捉聚类及其演化并及时向用户汇报，可以使用户知道“发生了什么”，更好地帮助用户及时进行决策调整，例如，在网络监控数据流中，新聚簇出现可能意味着一批DOS攻击的开始，获取这一变化有利于用户及时采取相关防范措施：在基于位置的应用中，位置聚簇的演化可能反映出某地区出现了非常规活动。另一方面，数据流聚类演化分析也可以作为预处理手段，为进一步数据流挖掘提供指导，例如，通过在部分流样本上进行聚类演化分析可以获取数据流的数据分布及演化趋势，从而为数据流上其它挖掘应用提供一定的指导。本文在数据流聚类演化研究方面作了相关探索，主要提出了无模型数据流聚类演化监测和基于模型数据流聚类演化检测两类方法，前者采用近似的聚类结果序列来刻画聚类演化，从降低时间与通讯开销角度出发，提出了相关技术及方法：后者采用两阶段框架，引入聚类演化检测模型，给出了解决数据流聚类演化问题的另一种思路。 1．2课题研究现状文献【1】中将传统的聚类算法主要分为5类：基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法，在数据流背景下，研究者通过扩展以上各种传统聚类算法，提出许多面向数据流的聚类算法。基于划分的聚类方法的主要思想是，把包含多个数据元素的数据集进行划分，一个划分代表一个簇。文献【2】，【3】提出一种通过改进k．means的得到的数据流聚类算法，算法目标是在占用内存少、计算时间短、单遍扫描的约束下对数据流进行聚类。文献【4】提出使用分而治之的思想改进k．nleails算法部件的性能，该算法首先将数据分块，然后通过计算各个小数据块的汇总信息来得到最终的结果。文献[5】采用一种指数直方圈的数据结构来改进以上算法，引入EH结构实现簇的合并，提高了概要结构的维护效率。文献【6】提出专门针对实时数据流的STREAM算法，采用分治思想进行多级聚类，算法性能和聚类效果质量都得到了东南大学硕士学位论文很大提高。以上方法代表了实时数据流聚类研究的早期阶段，该类方法在内存建立、维护概要数据结构以反应数据流特征，其不足之处在于只支持球形聚类、对高维数据流无能为力、对噪声敏感以及无法进行演化分析等。基于层次方法的基本思想是对数据元素集合进行层次的分解，形成一棵由聚类组成的树。由于树结构较低的维护代价，相对来讲更适合于作为概要结构，因而此类方法得到了广泛研说，CluStream并非一个算法，而是一个面向数据流聚类的处理框架，它把聚类过程分为在线微聚类和离线宏聚类两个阶段，这种两阶段处理框架被后来的很多数据流聚类算法所采用。通过引入投影技术和衰减簇结构，更好地支持高维数据流的聚类分析，不足之处在于需要在聚类前指定参数，抗噪性较差，对数据流中数据的到来顺序敏感，不能有效处理任意形状的类五种演化的算法，不足之处是无法处理聚类数目不能事先确定的数据流聚类。基于密度的方法主要针对面向任意形状的簇的聚类问题。该类方法将高密度区域看作一个聚类，并且这些聚类被低密度区域(噪声)所分割，密集的一般含义是指在给定的半径内，具备超过了某个闽值数量的数据点，密度可达和密度相连是该方法的两个重要概念。带噪声的大型空间数据集上的聚类，使用了密度的概念，同时引入了给定半径和最少点数限制的核心对象概念，最终依靠核心对象及其邻域间的连通关系分析得到聚类结果。OPTICS 本身不产生聚类，而是为自动和交互的聚类分析计算一个簇次序，相当于为DBSCAN提供广

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据流上的聚类演化分析.pdfVIP