基于网格和密度的数据流聚类研究-计算机软件与理论专业论文.docxVIP

  • 5
  • 0
  • 约4.93万字
  • 约 61页
  • 2019-03-30 发布于上海
  • 举报

基于网格和密度的数据流聚类研究-计算机软件与理论专业论文.docx

华 华 中 科 技 大 学 硕 士 学 位 论 文 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其它个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本论文属于 保密□ ,在 年解密后适用本授权书。 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 I I 摘 要 当前,由于网络入侵检测、实时监控系统以及 web 上用户的点击流数据等等动 态的应用环境下不断地形成时序的、海量的、迅速变化的以及潜在无穷的数据流, 对于数据流的挖掘研究已经变得非常重要并且富有实用价值。聚类分析作为数据挖 掘领域当中一个非常重要的问题,目前已经被广泛地进行了研究。但是数据流的模 型并不等同于传统的数据集,这个时候新的要求以及挑战就随之而产生了。 通过对传统的聚类方法研究,发现存在的数据流聚类算法如 CluStream 是基于 k-means 算法的。这些聚类算法对于找到任何形状的聚类是不合适的,并且不能处理 异常点。进一步而言,它们需要 k 的值以及用户特定的时间窗口。而基于网格与密 度的聚类方法拥有非常多可以应用到数据流处理的相关特点,比较容易实现数据流 的聚类相关处理。因而,在对基于网格与密度的传统聚类算法进行研究以及改进的 基础上,从聚类的过程中所需要处理的数据集的动态特性出发,对基于网格与密度 的数据流聚类方法进行了相关研究并提出 GDCLUS,一种用基于密度的方法来进行 数据流的聚类。这种算法运用在线组件将每一个输入数据记录映射到一个网格中, 而离线组件主要采用最小生成树的思想来进行网格的聚类。这种算法采用了一种密 度衰减的技术来获取数据流的动态变化,通过发现衰减因子,数据密度以及聚类结 构之间复杂的关系,算法能够有效地实时产生并且调整聚类。进一步地,将改进的 金字塔框架运用到数据流在线组件数据筛选,这种技术,在没有降低聚类质量的前 提下,使得高速率的数据流聚类更加可行。实验结果表明,算法有优秀的质量和效 率,能够发现任意形状的聚类,并且能够准确识别实时数据流的进化特征。 最后,对于实际的数据流相关应用领域,对于算法的相关性能进行了测试,并 在用于网络入侵检测的 KDDCup99 数据集上进行了相关实验,验证了算法的可行性。 关键词:数据流,聚类,网络入侵检测,最小生成树 II II Abstract Currently, as network intrusion detection, real-time monitoring system, and user’s clicking stream data on the web, etc continuously generate time-bounded, large scale, fast-changing and infinite data stream, it is very important and useful to research the area of data mining for data stream. Clustering as a very important issue in data mining area, has been widely studied right now. But the model of data stream is not equal to the traditional data set, new demands and challenge generate. This paper studied traditional clustering methods, finding that existing data stream clustering algorithm like CluStream is based on k-means algorithm. Those clustering algorithms are not suitable to find clusters of any shape, and

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档