基于数据流的聚类分析算法研究-计算机应用技术专业论文.docxVIP

  • 9
  • 0
  • 约4.63万字
  • 约 57页
  • 2019-03-30 发布于上海
  • 举报

基于数据流的聚类分析算法研究-计算机应用技术专业论文.docx

万方数据 万方数据 硕 士 学 位 论 文 基于数据流的聚类分析算法研究 The Research of Clustering Algorithm based on Data Stream 作 者 姓 名: 何江燕 学科、专业 : 计算机应用技术 学 号 : 0207624 指 导 教 师: 米根锁 完 成 日 期: 2010.04 兰 州 交 通 大 学 Lanzhou Jiaotong University 兰州交通大学硕士学位论文 兰州交通大学硕士学位论文 摘 要 近年来,随着信息技术的飞速发展,在众多领域的实际应用中产生了一种新的数据 集合,其数据是动态的、有序的、连续的、无限的,对这种数据的处理只能按照顺序访 问,并读取一次或者有限几次,这种数据集合就称为数据流。传感器中的数据、股票价 格信息、网络传输监控、金融证券信息分析等都是我们常见的数据流。 本文在对数据挖掘进行研究的基础上引入数据流聚类分析技术及方法的相关介绍, 客观分析现有算法的优劣性,并结合现实世界数据流特性及实际应用情况,提出面向含 有噪声数据的数据流聚类算法研究。主要分为以下几个部分: (1) 对传统的聚类算法和经典的数据流聚类算法进行分析比较。其中包括传统聚类 算法的要求、分类和比较等;数据流聚类算法的特点和要求,几种经典算法的分析比较 等;为进一步研究数据流聚类算法奠定了理论基础。 (2) 详细介绍双层数据流聚类算法框架。在线层算法是对每次新到的数据点进行简 单快速地处理,生成并存储概要数据信息;离线层算法是运用相对复杂但高效的聚类算 法对在线层输入的结果进行计算,得出较高质量的聚类结果。本文提出的基于网格和密 度的数据流聚类算法就是采用的双层数据流聚类框架。 (3) 针对传统聚类算法存在的问题,本文提出一种基于网格和密度的数据流聚类算 法 GDDStream。算法采用了在线/离线双层数据流聚类框架,在线层算法对流入的新数 据快速实时地进行映射,即根据每个数据对象的属性值把它定位到相应的网格单元中; 离线层算法随着密度的变化自适应地调整聚类,不断地更新网格单元的特征向量,根据 密度来合并单元格聚成簇或类。为了提高聚类算法的质量和速度,本文还对噪声数据进 行了有效地处理,能够根据密度的动态变化区分出真正的噪声数据并去除,使得占用的 存储空间变小,算法的工作量变少,提高算法执行效率。 最后,对本文提出的 GDDStream 算法进行实验仿真,结果证明了该算法具有较好 的伸缩性,较快的处理速度和较高的聚类质量,并能对任意形状的簇聚类。应用部分又 以入侵检测为代表的具体数据流环境为研究对象,对 GDDStream 算法进行了大体的论 述,初步提出了应用于入侵检测的方法。 关键词:数据挖掘;网格;密度;聚类分析;数据流 论文类型:应用研究 - I - 基于数据流的聚类分析算法研究 基于数据流的聚类分析算法研究 Abstract In recent years, new aggregate of the data called data stream applies in extensive areas following the rapid developmental information technology, its data are dynamic, ordered, consecutive and infinite, the data was treated only according to ordered access and read once or limited several times. In our lives, data in sensor, stock price information, network transmission and monetary securities analysis are frequent data stream. It introduces clustering analysis methods of data stream based on the data mining in this paper. it analyzes the strengths and weaknesses of the existing algorithms, and combines with data stream characteristics of real-world and the practical application, proposes clustering algorithm research of data stream about noisy data. It inc

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档