- 1
- 0
- 约4.75万字
- 约 51页
- 2019-03-30 发布于上海
- 举报
摘 要
信息化发展的今天,计算机网络和传感器技术的应用,在电信记录、股票交易、网 络监控、WEB 网页访问等领域中产生了大量数据流。不同于传统的静态数据,数据流 具有动态变化、持续到达、速度快、规模大等特点。如何从数据流中挖掘出有用信息已 成为当前数据挖掘中的一个热点。聚类分析是数据挖掘的一个重要方法,能够发现潜在 数据中的人们感兴趣的分布模式。传统的聚类算法不能直接应用到数据流聚类,需要设 计高效的的单遍扫描算法,这给数据流聚类提出了前所未有的挑战。
本文首先对数据流挖掘的知识和相关的一些技术进行了介绍,然后对传统聚类算法 进行了分析。通过对现有的比较有代表性的数据流聚类算法的优势和不足,从处理速度、 聚类质量等各方面进行分析比较,发现基于网格的聚类算法处理速度快,基于密度的聚 类算法易发现任意形状的聚类。本文结合数据流的特点以及对数据流聚类的要求,主要 完成了以下工作:
1. 在线层通过对网格特征向量的更新,设计了一个按指数衰减的快照算法对快照信 息进行存储,并实现了密度阈值的自适应。
2. 离线层对在线层保存的网格概要信息进行分析,对于其中的边界网格以网格单元 的质心为中心点,划分得到一个子网格,使边界网格中的局部密集区域可能转化成密集 网格参与聚类。
3. 在以上两点的基础了提出了一个新的基于网格的数据流聚类算法 DSCAG 算法, 并通过实验进行验证,有效的提高了聚类质量。
关键词:数据流,聚类,网格,密度
I
Abstract
With the fast development of information technology and the application of computer network and sensor technology nowadays, a large number of data streams have been produced in telecommunications records, stock trading, network monitoring and viewing WEB page etc. Different from traditional static data, data stream is characteristic of being dynamic, changing fast, reaching continuously, high speed and large scale etc. How to find out useful information from the data stream has become a heated topic in data mining. Cluster analysis is an important method in data mining, and it can find the potential distribution patterns that the users are interested in. However, the traditional clustering algorithms can not be directly applied to the data stream clustering. Therefore, efficient Single-pass scan algorithm needs to be designed, which presents unprecedented challenges to the data stream clustering.
Data stream mining knowledge and some related technology were introduced first in this paper. On the basis of analzing traditional clustering algorithms, analyzing and comparing advantages and disadvantages of some representative data stream clustering algorithms from processing speed, clustering quality and so on various aspects.it is found that the grid-based clustering algorithm is rapid and that the density-based clustering algorithm makes it easy to
您可能关注的文档
- 基于生命周期视角下成长型企业管理与员工自我管理关系分析-技术经济及管理专业论文.docx
- 基于农业标准化的山东省节水灌溉分区研究-水利水电工程专业论文.docx
- 基于收益现值法的绿源苗木公司牡丹反季节催花技术价值评估-资产评估专业论文.docx
- 基于特征向量的语义角色标注研究-计算机应用技术专业论文.docx
- 基于人力资本和社会资本视角的农民工城市认同感研究-农业经济管理专业论文.docx
- 基于遗传算法的BP神经网络气象预报建模-概率论与数理统计专业论文.docx
- 基于内生成长的服务业跨国公司CEO收入模式研究-世界经济专业论文.docx
- 基于客户购买决策过程对NI公司ERP产品推广思路的研究工商管理专业论文.docx
- 基于系统动力学的软件项目成本管理-工商管理专业论文.docx
- 基于外贸发展累积效应的外贸转型调整研究-国际贸易专业论文.docx
最近下载
- SY_T 5333-2023 钻井工程设计规范.pdf VIP
- 深度解析(2026)《SYT 5946-2019钻井液用包被抑制剂 聚丙烯酰胺钾盐》.pptx VIP
- 卧式储罐体积容积计算(带公式).xls VIP
- 深度解析(2026)《SYT 5661-2019钻井液用增粘剂 丙烯酰胺类聚合物》.pptx VIP
- SY_T 5061-2020 钻井液用石灰石粉.docx VIP
- 深度解析(2026)《SYT 5677-2019钻井液用滤纸》.pptx VIP
- ICU常用药物中英文对照一览表.doc VIP
- 心血管常用名词缩写和心血管常用药物英汉对照.pdf VIP
- ISO9001 质量管理体系全套(质量手册+程序文件+表格记录全套).doc VIP
- 深度解析(2026)SYT 5794-2010《钻井液用沥青类评价方法》:从标准解读到未来油田化学智能化应用的战略前瞻.pptx VIP
原创力文档

文档评论(0)