数据挖掘中聚类法研究与仿真.pdfVIP

  • 7
  • 0
  • 约13.31万字
  • 约 104页
  • 2016-03-02 发布于贵州
  • 举报
数据挖掘中聚类法研究与仿真

阱f‘学位论义 《数据挖掘中聚类髯=法研究‘0仿真》 摘要 近年来,数据挖掘在很多行业得到了越来越广泛的应用,如序列模式分 析、客户分类与聚类、交叉销售、甄别欺诈行为等。聚类,作为数据挖掘中的 主要方法之一,也受到越来越多的关注。目前已经有很多比较成熟的聚类算 中有些算法已经得到成功应用,但是,聚类分析也面临着越来越多的新问题。 如海量数据的处理、商维数据的聚类、子空间聚类、带有约束条件的聚类、数 据流聚类等。针对这些新问题,很多人在不断研究新的算法,也有人在以前算 法的基础上不断地进行改进。 为了解决高维海量数据的聚类分析问题和数据流聚类问题,本论文设计了 一系列新的聚类算法:等密度线聚类(DILC)算法、基于网格的等密度线聚 流聚类的OnlineGRID算法、以及高维聚类通用框架模型。其中,AGRID算 法通过结合密度型聚类和网格型聚类两者的长处,能够有效地用于高维海量数 据的聚类分析,并具有很好的时间复杂度和空间复杂度。此外,本论文还提出 了数据挖掘与数据仓库、OLAP等技术在电信行业应用的建议方案,并对数据 挖掘在电信计费数据分析中的应用进行了尝试和探索。 本论文的主要贡献有以下几点: basedIsoline 思想,把该思想与密度聚类相结合,能够识别任意复杂形状的聚类, 并且能够有效排除噪声的干扰。此外,聚类的结果不受数据输入顺序 的影响。该算法的思想和有效性经过了实验验证,并发表于《北京邮 电大学学报》。 2.结合基于网格聚类的思想,提出了基于网格的等密度线聚类(GRID: Grid.based Line J。通过结合基于密 Iso.DensityClustering)算法[zs01 度聚类和基于网格聚类两者各自的优点,该算法利用网格和邻居的思 想来减少计算的复杂度,从而实现快速的聚类。该算法的有效性通过 实验进行了验证。其具体思想发表于ICII2001国际会议。 3.通过对邻居定义和网格单元存储方法的改进,提出了AGRID (AdvancedGrid—based Line Iso-Density 算法)算法【z80 3’¨。该算法中还采用了更好的分割方法以及更好的自 麟{‘学位鲍义 《数撼挖粥中浆类算法拼抛’i仿萁》 洳参数确定方法,使之能够很好的艨用于海量耐维数据集的聚炎分 丰肝。本论文对算法的复杂艘进行了分析和推导,弗通过把该算法成用 予静静复杂形状数据榘,诞稿了算法黪瘫牲戆露鸯效牲。该冀滚发表 j:PAKDD 2003毽际会议。 4.针对数据集中各个聚类的分桁密度不删的特点,挝}:}j了用于不嗣密度 凝类的GRID凝类算法f28。8。3t。通避多个殓段垂冬巢类,该算法熊够识 鞭溅藤疑羧键集中分毒密瘦不霜甚囊蘧髯较大蕊各个聚类。零论文逶 过实验证明了簿法的有效憔。该算法的飙体思想发寝。】二《北京邮电大 学学报》。 Grid算法‘28。3—1,来实现对=维数据流的聚类。邋避厢代表寨泉代替 原始数据集,从而保证了谯有限的空间条件下能够对连续的二维数据 浚逶嚣离速蒙炎。零沦文遴过复杂鏖分摄鞫实验验谖了其有效瞧。滚 算法已揆稿蒸《电子攀擞》。 6.针对高维数据空间中数据分布的特点,提出了高雅邋用聚类糕槊模型 f。s02‘2,2s03。】。道过把一个嬲维蒙类过程分瓣为多个一维或嚣维浆粪过 程,胰瑟楚蒋遴鼹低维聚炎簿法麓够寄效地蘑予惑绻数据集的蘩类。 论文中通过实验验证了该模型的有效性。该框架模型思想发袭于 CCECE 2003国际会议。 兴键诿:数据挖蘧,豢炎,无整

文档评论(0)

1亿VIP精品文档

相关文档