- 5
- 0
- 约4.93万字
- 约 61页
- 2019-03-30 发布于上海
- 举报
华
华 中 科 技 大 学 硕 士 学 位 论 文
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其它个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于 保密□ ,在 年解密后适用本授权书。 不保密□。
(请在以上方框内打“√”)
学位论文作者签名: 指导教师签名:
日期: 年 月 日 日期: 年 月 日
I
I
摘 要
当前,由于网络入侵检测、实时监控系统以及 web 上用户的点击流数据等等动 态的应用环境下不断地形成时序的、海量的、迅速变化的以及潜在无穷的数据流, 对于数据流的挖掘研究已经变得非常重要并且富有实用价值。聚类分析作为数据挖 掘领域当中一个非常重要的问题,目前已经被广泛地进行了研究。但是数据流的模 型并不等同于传统的数据集,这个时候新的要求以及挑战就随之而产生了。
通过对传统的聚类方法研究,发现存在的数据流聚类算法如 CluStream 是基于 k-means 算法的。这些聚类算法对于找到任何形状的聚类是不合适的,并且不能处理 异常点。进一步而言,它们需要 k 的值以及用户特定的时间窗口。而基于网格与密 度的聚类方法拥有非常多可以应用到数据流处理的相关特点,比较容易实现数据流 的聚类相关处理。因而,在对基于网格与密度的传统聚类算法进行研究以及改进的 基础上,从聚类的过程中所需要处理的数据集的动态特性出发,对基于网格与密度 的数据流聚类方法进行了相关研究并提出 GDCLUS,一种用基于密度的方法来进行 数据流的聚类。这种算法运用在线组件将每一个输入数据记录映射到一个网格中, 而离线组件主要采用最小生成树的思想来进行网格的聚类。这种算法采用了一种密 度衰减的技术来获取数据流的动态变化,通过发现衰减因子,数据密度以及聚类结 构之间复杂的关系,算法能够有效地实时产生并且调整聚类。进一步地,将改进的 金字塔框架运用到数据流在线组件数据筛选,这种技术,在没有降低聚类质量的前 提下,使得高速率的数据流聚类更加可行。实验结果表明,算法有优秀的质量和效 率,能够发现任意形状的聚类,并且能够准确识别实时数据流的进化特征。
最后,对于实际的数据流相关应用领域,对于算法的相关性能进行了测试,并 在用于网络入侵检测的 KDDCup99 数据集上进行了相关实验,验证了算法的可行性。
关键词:数据流,聚类,网络入侵检测,最小生成树
II
II
Abstract
Currently, as network intrusion detection, real-time monitoring system, and user’s clicking stream data on the web, etc continuously generate time-bounded, large scale, fast-changing and infinite data stream, it is very important and useful to research the area of data mining for data stream. Clustering as a very important issue in data mining area, has been widely studied right now. But the model of data stream is not equal to the traditional data set, new demands and challenge generate.
This paper studied traditional clustering methods, finding that existing data stream clustering algorithm like CluStream is based on k-means algorithm. Those clustering algorithms are not suitable to find clusters of any shape, and
您可能关注的文档
- 基于网络安全的政府监管分析-行政管理专业论文.docx
- 基于塑性和弹性模型的日元美元汇率波动实证研究-金融学专业论文.docx
- 基于数据挖掘的体育成绩管理与体能分析系统-软件工程专业论文.docx
- 基于前景理论的随机模糊多属性决策方法的研究-管理科学与工程专业论文.docx
- 基于生活情境的中学物理教学对学生能力培养的研究-课程与教学论(物理)专业论文.docx
- 基于利益相关者的企业社会责任与企业价值关系研究-会计学专业论文.docx
- 基于决策树的港口后方堆场辅助决策应用的研究计算机技术专业论文.docx
- 基于碳排放的 产品质量设计与推广策略研究-企业管理专业论文.docx
- 基于随机波动率和随机利率的亚式期权定价-应用数学专业论文.docx
- 基于数据挖掘的高校成绩分析系统的设计与实现-计算机技术专业论文.docx
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
原创力文档

文档评论(0)