基于网格的数据流聚类算法分析-计算机系统结构专业论文.docxVIP

  • 1
  • 0
  • 约4.75万字
  • 约 51页
  • 2019-03-30 发布于上海
  • 举报

基于网格的数据流聚类算法分析-计算机系统结构专业论文.docx

摘 要 信息化发展的今天,计算机网络和传感器技术的应用,在电信记录、股票交易、网 络监控、WEB 网页访问等领域中产生了大量数据流。不同于传统的静态数据,数据流 具有动态变化、持续到达、速度快、规模大等特点。如何从数据流中挖掘出有用信息已 成为当前数据挖掘中的一个热点。聚类分析是数据挖掘的一个重要方法,能够发现潜在 数据中的人们感兴趣的分布模式。传统的聚类算法不能直接应用到数据流聚类,需要设 计高效的的单遍扫描算法,这给数据流聚类提出了前所未有的挑战。 本文首先对数据流挖掘的知识和相关的一些技术进行了介绍,然后对传统聚类算法 进行了分析。通过对现有的比较有代表性的数据流聚类算法的优势和不足,从处理速度、 聚类质量等各方面进行分析比较,发现基于网格的聚类算法处理速度快,基于密度的聚 类算法易发现任意形状的聚类。本文结合数据流的特点以及对数据流聚类的要求,主要 完成了以下工作: 1. 在线层通过对网格特征向量的更新,设计了一个按指数衰减的快照算法对快照信 息进行存储,并实现了密度阈值的自适应。 2. 离线层对在线层保存的网格概要信息进行分析,对于其中的边界网格以网格单元 的质心为中心点,划分得到一个子网格,使边界网格中的局部密集区域可能转化成密集 网格参与聚类。 3. 在以上两点的基础了提出了一个新的基于网格的数据流聚类算法 DSCAG 算法, 并通过实验进行验证,有效的提高了聚类质量。 关键词:数据流,聚类,网格,密度 I Abstract With the fast development of information technology and the application of computer network and sensor technology nowadays, a large number of data streams have been produced in telecommunications records, stock trading, network monitoring and viewing WEB page etc. Different from traditional static data, data stream is characteristic of being dynamic, changing fast, reaching continuously, high speed and large scale etc. How to find out useful information from the data stream has become a heated topic in data mining. Cluster analysis is an important method in data mining, and it can find the potential distribution patterns that the users are interested in. However, the traditional clustering algorithms can not be directly applied to the data stream clustering. Therefore, efficient Single-pass scan algorithm needs to be designed, which presents unprecedented challenges to the data stream clustering. Data stream mining knowledge and some related technology were introduced first in this paper. On the basis of analzing traditional clustering algorithms, analyzing and comparing advantages and disadvantages of some representative data stream clustering algorithms from processing speed, clustering quality and so on various aspects.it is found that the grid-based clustering algorithm is rapid and that the density-based clustering algorithm makes it easy to

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档