- 9
- 0
- 约4.63万字
- 约 57页
- 2019-03-30 发布于上海
- 举报
万方数据
万方数据
硕 士 学 位 论 文
基于数据流的聚类分析算法研究
The Research of Clustering Algorithm based on Data Stream
作 者 姓 名: 何江燕 学科、专业 : 计算机应用技术 学 号 : 0207624 指 导 教 师: 米根锁 完 成 日 期: 2010.04
兰 州 交 通 大 学
Lanzhou Jiaotong University
兰州交通大学硕士学位论文
兰州交通大学硕士学位论文
摘 要
近年来,随着信息技术的飞速发展,在众多领域的实际应用中产生了一种新的数据 集合,其数据是动态的、有序的、连续的、无限的,对这种数据的处理只能按照顺序访 问,并读取一次或者有限几次,这种数据集合就称为数据流。传感器中的数据、股票价 格信息、网络传输监控、金融证券信息分析等都是我们常见的数据流。
本文在对数据挖掘进行研究的基础上引入数据流聚类分析技术及方法的相关介绍, 客观分析现有算法的优劣性,并结合现实世界数据流特性及实际应用情况,提出面向含 有噪声数据的数据流聚类算法研究。主要分为以下几个部分:
(1) 对传统的聚类算法和经典的数据流聚类算法进行分析比较。其中包括传统聚类 算法的要求、分类和比较等;数据流聚类算法的特点和要求,几种经典算法的分析比较 等;为进一步研究数据流聚类算法奠定了理论基础。
(2) 详细介绍双层数据流聚类算法框架。在线层算法是对每次新到的数据点进行简 单快速地处理,生成并存储概要数据信息;离线层算法是运用相对复杂但高效的聚类算 法对在线层输入的结果进行计算,得出较高质量的聚类结果。本文提出的基于网格和密 度的数据流聚类算法就是采用的双层数据流聚类框架。
(3) 针对传统聚类算法存在的问题,本文提出一种基于网格和密度的数据流聚类算 法 GDDStream。算法采用了在线/离线双层数据流聚类框架,在线层算法对流入的新数 据快速实时地进行映射,即根据每个数据对象的属性值把它定位到相应的网格单元中; 离线层算法随着密度的变化自适应地调整聚类,不断地更新网格单元的特征向量,根据 密度来合并单元格聚成簇或类。为了提高聚类算法的质量和速度,本文还对噪声数据进 行了有效地处理,能够根据密度的动态变化区分出真正的噪声数据并去除,使得占用的 存储空间变小,算法的工作量变少,提高算法执行效率。
最后,对本文提出的 GDDStream 算法进行实验仿真,结果证明了该算法具有较好 的伸缩性,较快的处理速度和较高的聚类质量,并能对任意形状的簇聚类。应用部分又 以入侵检测为代表的具体数据流环境为研究对象,对 GDDStream 算法进行了大体的论 述,初步提出了应用于入侵检测的方法。
关键词:数据挖掘;网格;密度;聚类分析;数据流 论文类型:应用研究
- I -
基于数据流的聚类分析算法研究
基于数据流的聚类分析算法研究
Abstract
In recent years, new aggregate of the data called data stream applies in extensive areas following the rapid developmental information technology, its data are dynamic, ordered, consecutive and infinite, the data was treated only according to ordered access and read once or limited several times. In our lives, data in sensor, stock price information, network transmission and monetary securities analysis are frequent data stream.
It introduces clustering analysis methods of data stream based on the data mining in this paper. it analyzes the strengths and weaknesses of the existing algorithms, and combines with data stream characteristics of real-world and the practical application, proposes clustering algorithm research of data stream about noisy data. It inc
您可能关注的文档
- 基于网络安全的政府监管分析-行政管理专业论文.docx
- 基于塑性和弹性模型的日元美元汇率波动实证研究-金融学专业论文.docx
- 基于数据挖掘的体育成绩管理与体能分析系统-软件工程专业论文.docx
- 基于前景理论的随机模糊多属性决策方法的研究-管理科学与工程专业论文.docx
- 基于生活情境的中学物理教学对学生能力培养的研究-课程与教学论(物理)专业论文.docx
- 基于利益相关者的企业社会责任与企业价值关系研究-会计学专业论文.docx
- 基于决策树的港口后方堆场辅助决策应用的研究计算机技术专业论文.docx
- 基于碳排放的 产品质量设计与推广策略研究-企业管理专业论文.docx
- 基于随机波动率和随机利率的亚式期权定价-应用数学专业论文.docx
- 基于数据挖掘的高校成绩分析系统的设计与实现-计算机技术专业论文.docx
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
最近下载
- 《肖申克救赎》与《人性污点》对比评析.doc VIP
- 陕晋青宁四省2025-2026学年高三上学期(1月)第二次联考数学试卷(含答案详解).pdf
- 2025年AWS认证DynamoDB全局表数据不一致性问题的诊断与解决专题试卷及解析.pdf VIP
- 2025年房地产经纪人高级谈判策略模拟与实战演练专题试卷及解析.pdf VIP
- 2025年公共营养师不同食物类别中碘的分布规律专题试卷及解析.pdf VIP
- 2025年无人机驾驶员执照飞行操作责任归属法律依据专题试卷及解析.pdf VIP
- 2025年招标师招标采购从业人员接受礼品、宴请与旅游的禁止性规定专题试卷及解析.pdf VIP
- 文旅创意产业商业计划书.docx VIP
- 2025年MK 袋鼠数学竞赛Level-D (7-8年级) 真题+解析.pdf
- 【数学卷+解析】苏州零模2601.pdf
原创力文档

文档评论(0)