基于CURE的聚类算法研究-Read.PDFVIP

  • 17
  • 0
  • 约6.76千字
  • 约 4页
  • 2019-08-18 发布于北京
  • 举报
基于CURE的聚类算法研究-Read.PDF

132 计算机技术与应用进展·2007 基于CURE的聚类算法研究* 康卫鲜 叶德谦 燕山大学 中德信息技术研究所,秦皇岛 066004 摘 要:聚类分析是数据挖掘领域的一个重要研究方向。本文对CURE层次聚类算法进行了深入的研 究,并针对目前算法的不足进行了改进。新方法用多点表示一个类,舍弃了代表点收缩的过程。根据 基于网格和密度聚类算法的原理对原始数据进行预处理,降低噪声影响、缩短聚类时间。实验表明, 改进的CURE能正确识别大多数类,速度明显优于原算法。 关键词:数据挖掘 层次聚类 CURE 1 引 言 数据聚类(聚类分析)是在机器学习、数据挖掘、统计数据分析、数据压缩、向量量化、图像处理以及其 它事务应用领域的一个重要应用[1] 。聚类分析方法即根据实体的特征对其进行聚类或分类,进而发现数据集 的整个空间分布规律和典型模式的方法。聚类分析是根据“物以类聚” 的原理,将本身没有类别的样本聚集成 不同的组,并且对每一个这样的组进行描述的过程。其主要依据(即目的)是聚到同一个组中的样本应该彼此 相似,而属于不同组的样本应该足够不相似。 聚类算法大体上可以分为以下几种:划分方法、层次方法、基于密度的方法、基于网格的方法和基于 模型的方法。层次聚类方法可分为自下而上和自上而下两种基本方法。自下而上方法是以数据对象作为原 子类,然后将这些原子类进行聚合。逐步聚合成越来越大的类,直到满足终止条件。自上而下方法是首先 将所有数据对象作为一类,然后逐步分解成越来越小的类,直到满足终止条件。CURE算法就是一个典型的 层次聚类算法。 2 CURE算法 绝大多数聚类算法或者擅长处理球形和相似大小的聚类,或者在存在孤立点时变得比较脆弱。CURE算 法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。它不同于 单个质心或对象来代表一个类,而是选择数据空间中固定数目的具有代表性的点。一个类的代表点通过如 下方式产生:首先选择类中分散的对象,然后根据一个特定的分数或收缩因子“收缩”或移动它们。在算法的 每一步,有最近距离的代表点对(每个点来自于一个不同的类) 的两个类被合并。每个类有多于一个的代表点 使得CURE可以适应非球形的几何形状。类的收缩或凝聚可以有助于控制孤立点的影响。因此,CURE对孤 立点的处理更加健壮,而且能够识别非球形和大小变化比较大的类。针对大型数据库,CURE采用随机取样 和划分两种方法组合:一个随机样本首先被划分,每个划分被部分聚类。 CURE算法的思想主要体现在如下几个方面[3] : (1)CURE算法采用的是聚结层次聚类。在最开始的时候,每一个对象就是一个独立的类,然后从最相似 *基金资助:教育部留学回国人员科研基金资助项目(2001498)。 作者简介:康卫鲜(1981-),女,河北石家庄人,硕士研究生,研究方向:数据挖掘。叶德谦(1954-),男,辽宁义县人, 博士,教授, 研究领域:数据仓库,人工智能和并行处理技术。 132 基于 CURE 的聚类算法研究 133 的对象开始进行合并。 (2)为了处理大数据集,采用了随机抽样和分割(Partitioning)手段。采用抽样的方法可以降低数据量,提 高算法的效率。在样本大小选择合适的情况下,一般能够得到比较好的聚类结果。另外,CURE算法还引入 了分割手段,即将样本分割为几个部分,然后针对各个部分中的对象分别进行局部聚类,形成子类。再针 对子类进行聚类,形成新的类。 (3)传统的算法常常采用一个对象来代表一个类,而CURE算法由分散的若干对象,在按收缩因子移向其 所在类的中心之后来代表该类。由于CURE算法采用多个对象来代表一个类,并通过收缩因子来调节类的形 状,因此能够处理非球形的对象分布。 (4)分两个阶段消除异常值的影响。CURE算法采用的是聚结层次聚类。在最开始的时候,每一个对象就

文档评论(0)

1亿VIP精品文档

相关文档