- 21
- 0
- 约3.53万字
- 约 33页
- 2019-06-21 发布于广东
- 举报
第一章绪论
第1章绪论
1.1研究背景及意义
大规模网络监控、地理信息探测、电信通话记录分析、传感器网络数据检测以及社交网
络即时信息分析等实时数据处理系统产生了大量潜在无限的数据,数据流被广泛应用于此类
数据的建模。数据流以不同的更新速率连续地流进和流出处理系统,具有时间顺序性、不可
预测性、数据量和数据域潜在无限性。以上特征给实时数据流处理带来许多挑战,数据流实
时处理成为很多领域的基本问题,数据流挖掘和知识发现成为重要的研究方向。
数据挖掘的主要任务是抽取数据集中潜在的有用模式和知识,作为一种重要的挖掘手
段,聚类分析广泛地应用于包括市场研究、模式识别、数据分析和图像处理等诸多领域。数
据流聚类与传统静态数据集上的聚类不同之处在于,数据流天然的时变演化特征,要求数据
流聚类分析不仅要揭示数据隐藏结构模式,而且需要跟踪结构模式的演变过程。一方面,捕
捉聚类及其演化并及时向用户汇报,可以使用户知道“发生了什么”,更好地帮助用户及时
进行决策调整,例如,在网络监控数据流中,新聚簇出现可能意味着一批DOS攻击的开始,
获取这一变化有利于用户及时采取相关防范措施:在基于位置的应用中,位置聚簇的演化可
能反映出某地区出现了非常规活动。另一方面,数据流聚类演化分析也可以作为预处理手段,
为进一步数据流挖掘提供指导,例如,通过在部分流样本上进行聚类演化分析可以获取数据
流的数据分布及演化趋势,从而为数据流上其它挖掘应用提供一定的指导。
本文在数据流聚类演化研究方面作了相关探索,主要提出了无模型数据流聚类演化监
测和基于模型数据流聚类演化检测两类方法,前者采用近似的聚类结果序列来刻画聚类演化,
从降低时间与通讯开销角度出发,提出了相关技术及方法:后者采用两阶段框架,引入聚类
演化检测模型,给出了解决数据流聚类演化问题的另一种思路。
1.2课题研究现状
文献【1】中将传统的聚类算法主要分为5类:基于划分的方法、基于层次的方法、基于
密度的方法、基于网格的方法和基于模型的方法,在数据流背景下,研究者通过扩展以上各
种传统聚类算法,提出许多面向数据流的聚类算法。
基于划分的聚类方法的主要思想是,把包含多个数据元素的数据集进行划分,一个划
分代表一个簇。文献【2】,【3】提出一种通过改进k.means的得到的数据流聚类算法,算法目标
是在占用内存少、计算时间短、单遍扫描的约束下对数据流进行聚类。文献【4】提出使用分
而治之的思想改进k.nleails算法部件的性能,该算法首先将数据分块,然后通过计算各个小
数据块的汇总信息来得到最终的结果。文献[5】采用一种指数直方圈的数据结构来改进以上
算法,引入EH结构实现簇的合并,提高了概要结构的维护效率。文献【6】提出专门针对实时
数据流的STREAM算法,采用分治思想进行多级聚类,算法性能和聚类效果质量都得到了
东南大学硕士学位论文
很大提高。以上方法代表了实时数据流聚类研究的早期阶段,该类方法在内存建立、维护概
要数据结构以反应数据流特征,其不足之处在于只支持球形聚类、对高维数据流无能为力、
对噪声敏感以及无法进行演化分析等。
基于层次方法的基本思想是对数据元素集合进行层次的分解,形成一棵由聚类组成的树。
由于树结构较低的维护代价,相对来讲更适合于作为概要结构,因而此类方法得到了广泛研
说,CluStream并非一个算法,而是一个面向数据流聚类的处理框架,它把聚类过程分为在
线微聚类和离线宏聚类两个阶段,这种两阶段处理框架被后来的很多数据流聚类算法所采用。
通过引入投影技术和衰减簇结构,更好地支持高维数据流的聚类分析,不足之处在于需要在
聚类前指定参数,抗噪性较差,对数据流中数据的到来顺序敏感,不能有效处理任意形状的
类五种演化的算法,不足之处是无法处理聚类数目不能事先确定的数据流聚类。
基于密度的方法主要针对面向任意形状的簇的聚类问题。该类方法将高密度区域看作一
个聚类,并且这些聚类被低密度区域(噪声)所分割,密集的一般含义是指在给定的半径内,
具备超过了某个闽值数量的数据点,密度可达和密度相连是该方法的两个重要概念。
带噪声的大型空间数据集上的聚类,使用了密度的概念,同时引入了给定半径和最少点数限
制的核心对象概念,最终依靠核心对象及其邻域间的连通关系分析得到聚类结果。OPTICS
本身不产生聚类,而是为自动和交互的聚类分析计算一个簇次序,相当于为DBSCAN提供
广
您可能关注的文档
最近下载
- 朗文3A复习资料及垃圾分类作文8篇.doc VIP
- 重庆天齐锂电新材料有限公司新建1000吨_年高能锂电材料电池级金属锂项目环评报告.pdf VIP
- DB65T 3694-2015 现行哈萨克文与西里尔哈萨克文编码字符转换规则.docx VIP
- TGXAS 1044-2025《中医护理三级查房规范》(发布稿).pdf VIP
- 华为云服务登录.doc VIP
- 采砂场工业用水水资源论证论证表详解.doc VIP
- Onkyo安桥TX-NR828中文说明书.pdf
- 采砂场工业用水水资源论证论证表分析报告.doc
- 【中考】2025年广东佛山数学试卷(原卷+答案).docx VIP
- 2021年广东省佛山市中考数学真题及答案.pdf VIP
原创力文档

文档评论(0)