- 7
- 0
- 约13.31万字
- 约 104页
- 2016-03-02 发布于贵州
- 举报
数据挖掘中聚类法研究与仿真
阱f‘学位论义 《数据挖掘中聚类髯=法研究‘0仿真》
摘要
近年来,数据挖掘在很多行业得到了越来越广泛的应用,如序列模式分
析、客户分类与聚类、交叉销售、甄别欺诈行为等。聚类,作为数据挖掘中的
主要方法之一,也受到越来越多的关注。目前已经有很多比较成熟的聚类算
中有些算法已经得到成功应用,但是,聚类分析也面临着越来越多的新问题。
如海量数据的处理、商维数据的聚类、子空间聚类、带有约束条件的聚类、数
据流聚类等。针对这些新问题,很多人在不断研究新的算法,也有人在以前算
法的基础上不断地进行改进。
为了解决高维海量数据的聚类分析问题和数据流聚类问题,本论文设计了
一系列新的聚类算法:等密度线聚类(DILC)算法、基于网格的等密度线聚
流聚类的OnlineGRID算法、以及高维聚类通用框架模型。其中,AGRID算
法通过结合密度型聚类和网格型聚类两者的长处,能够有效地用于高维海量数
据的聚类分析,并具有很好的时间复杂度和空间复杂度。此外,本论文还提出
了数据挖掘与数据仓库、OLAP等技术在电信行业应用的建议方案,并对数据
挖掘在电信计费数据分析中的应用进行了尝试和探索。
本论文的主要贡献有以下几点:
basedIsoline
思想,把该思想与密度聚类相结合,能够识别任意复杂形状的聚类,
并且能够有效排除噪声的干扰。此外,聚类的结果不受数据输入顺序
的影响。该算法的思想和有效性经过了实验验证,并发表于《北京邮
电大学学报》。
2.结合基于网格聚类的思想,提出了基于网格的等密度线聚类(GRID:
Grid.based Line J。通过结合基于密
Iso.DensityClustering)算法[zs01
度聚类和基于网格聚类两者各自的优点,该算法利用网格和邻居的思
想来减少计算的复杂度,从而实现快速的聚类。该算法的有效性通过
实验进行了验证。其具体思想发表于ICII2001国际会议。
3.通过对邻居定义和网格单元存储方法的改进,提出了AGRID
(AdvancedGrid—based Line
Iso-Density
算法)算法【z80
3’¨。该算法中还采用了更好的分割方法以及更好的自
麟{‘学位鲍义 《数撼挖粥中浆类算法拼抛’i仿萁》
洳参数确定方法,使之能够很好的艨用于海量耐维数据集的聚炎分
丰肝。本论文对算法的复杂艘进行了分析和推导,弗通过把该算法成用
予静静复杂形状数据榘,诞稿了算法黪瘫牲戆露鸯效牲。该冀滚发表
j:PAKDD
2003毽际会议。
4.针对数据集中各个聚类的分桁密度不删的特点,挝}:}j了用于不嗣密度
凝类的GRID凝类算法f28。8。3t。通避多个殓段垂冬巢类,该算法熊够识
鞭溅藤疑羧键集中分毒密瘦不霜甚囊蘧髯较大蕊各个聚类。零论文逶
过实验证明了簿法的有效憔。该算法的飙体思想发寝。】二《北京邮电大
学学报》。
Grid算法‘28。3—1,来实现对=维数据流的聚类。邋避厢代表寨泉代替
原始数据集,从而保证了谯有限的空间条件下能够对连续的二维数据
浚逶嚣离速蒙炎。零沦文遴过复杂鏖分摄鞫实验验谖了其有效瞧。滚
算法已揆稿蒸《电子攀擞》。
6.针对高维数据空间中数据分布的特点,提出了高雅邋用聚类糕槊模型
f。s02‘2,2s03。】。道过把一个嬲维蒙类过程分瓣为多个一维或嚣维浆粪过
程,胰瑟楚蒋遴鼹低维聚炎簿法麓够寄效地蘑予惑绻数据集的蘩类。
论文中通过实验验证了该模型的有效性。该框架模型思想发袭于
CCECE
2003国际会议。
兴键诿:数据挖蘧,豢炎,无整
您可能关注的文档
最近下载
- TSHJX 009-2020 上海市域铁路轨道工程施工技术规程(试行).docx VIP
- 康复规培考试试题及答案.doc VIP
- 2022风电工程建设标准工艺.docx VIP
- VW 50180_EN-2025 汽车内饰件排放性能.pdf
- API681石油,化工及气体工业用液环式真空泵和压缩机.pdf VIP
- 高级调饮师理论考试题及答案.doc VIP
- 2025年新人教版五年级下册道德与法治全册精编知识点(学生用).pdf
- TBAEE 004-2019 婴幼儿洗衣液.pdf VIP
- 《集成电路封装与测试技术》第5章 印制电路板.ppt VIP
- 人教版(2024)新教材小学三年级美术下册第一单元《第1课 水火土的猜想》精品课件.pptx
原创力文档

文档评论(0)