基于CURE的聚类算法研究-Read.PDFVIP

下载本文档

17
0
约6.76千字
约 4页
2019-08-18 发布于北京
举报

基于CURE的聚类算法研究-Read.PDF

132 计算机技术与应用进展·2007 基于CURE的聚类算法研究* 康卫鲜叶德谦燕山大学中德信息技术研究所，秦皇岛 066004 摘要：聚类分析是数据挖掘领域的一个重要研究方向。本文对CURE层次聚类算法进行了深入的研究，并针对目前算法的不足进行了改进。新方法用多点表示一个类，舍弃了代表点收缩的过程。根据基于网格和密度聚类算法的原理对原始数据进行预处理，降低噪声影响、缩短聚类时间。实验表明，改进的CURE能正确识别大多数类，速度明显优于原算法。关键词：数据挖掘层次聚类 CURE 1 引言数据聚类(聚类分析)是在机器学习、数据挖掘、统计数据分析、数据压缩、向量量化、图像处理以及其它事务应用领域的一个重要应用[1] 。聚类分析方法即根据实体的特征对其进行聚类或分类，进而发现数据集的整个空间分布规律和典型模式的方法。聚类分析是根据“物以类聚” 的原理，将本身没有类别的样本聚集成不同的组，并且对每一个这样的组进行描述的过程。其主要依据(即目的)是聚到同一个组中的样本应该彼此相似，而属于不同组的样本应该足够不相似。聚类算法大体上可以分为以下几种：划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。层次聚类方法可分为自下而上和自上而下两种基本方法。自下而上方法是以数据对象作为原子类，然后将这些原子类进行聚合。逐步聚合成越来越大的类，直到满足终止条件。自上而下方法是首先将所有数据对象作为一类，然后逐步分解成越来越小的类，直到满足终止条件。CURE算法就是一个典型的层次聚类算法。 2 CURE算法绝大多数聚类算法或者擅长处理球形和相似大小的聚类，或者在存在孤立点时变得比较脆弱。CURE算法采用了一种新颖的层次聚类算法，该算法选择基于质心和基于代表对象方法之间的中间策略。它不同于单个质心或对象来代表一个类，而是选择数据空间中固定数目的具有代表性的点。一个类的代表点通过如下方式产生：首先选择类中分散的对象，然后根据一个特定的分数或收缩因子“收缩”或移动它们。在算法的每一步，有最近距离的代表点对(每个点来自于一个不同的类) 的两个类被合并。每个类有多于一个的代表点使得CURE可以适应非球形的几何形状。类的收缩或凝聚可以有助于控制孤立点的影响。因此，CURE对孤立点的处理更加健壮，而且能够识别非球形和大小变化比较大的类。针对大型数据库，CURE采用随机取样和划分两种方法组合：一个随机样本首先被划分，每个划分被部分聚类。 CURE算法的思想主要体现在如下几个方面[3] ： (1)CURE算法采用的是聚结层次聚类。在最开始的时候，每一个对象就是一个独立的类，然后从最相似 *基金资助：教育部留学回国人员科研基金资助项目（2001498）。作者简介：康卫鲜（1981-），女，河北石家庄人，硕士研究生，研究方向：数据挖掘。叶德谦（1954-），男，辽宁义县人，博士，教授, 研究领域：数据仓库，人工智能和并行处理技术。 132 基于 CURE 的聚类算法研究 133 的对象开始进行合并。 (2)为了处理大数据集，采用了随机抽样和分割(Partitioning)手段。采用抽样的方法可以降低数据量，提高算法的效率。在样本大小选择合适的情况下，一般能够得到比较好的聚类结果。另外，CURE算法还引入了分割手段，即将样本分割为几个部分，然后针对各个部分中的对象分别进行局部聚类，形成子类。再针对子类进行聚类，形成新的类。 (3)传统的算法常常采用一个对象来代表一个类，而CURE算法由分散的若干对象，在按收缩因子移向其所在类的中心之后来代表该类。由于CURE算法采用多个对象来代表一个类，并通过收缩因子来调节类的形状，因此能够处理非球形的对象分布。 (4)分两个阶段消除异常值的影响。CURE算法采用的是聚结层次聚类。在最开始的时候，每一个对象就

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于CURE的聚类算法研究-Read.PDFVIP