- 17
- 0
- 约6.76千字
- 约 4页
- 2019-08-18 发布于北京
- 举报
基于CURE的聚类算法研究-Read.PDF
132 计算机技术与应用进展·2007
基于CURE的聚类算法研究*
康卫鲜 叶德谦
燕山大学 中德信息技术研究所,秦皇岛 066004
摘 要:聚类分析是数据挖掘领域的一个重要研究方向。本文对CURE层次聚类算法进行了深入的研
究,并针对目前算法的不足进行了改进。新方法用多点表示一个类,舍弃了代表点收缩的过程。根据
基于网格和密度聚类算法的原理对原始数据进行预处理,降低噪声影响、缩短聚类时间。实验表明,
改进的CURE能正确识别大多数类,速度明显优于原算法。
关键词:数据挖掘 层次聚类 CURE
1 引 言
数据聚类(聚类分析)是在机器学习、数据挖掘、统计数据分析、数据压缩、向量量化、图像处理以及其
它事务应用领域的一个重要应用[1] 。聚类分析方法即根据实体的特征对其进行聚类或分类,进而发现数据集
的整个空间分布规律和典型模式的方法。聚类分析是根据“物以类聚” 的原理,将本身没有类别的样本聚集成
不同的组,并且对每一个这样的组进行描述的过程。其主要依据(即目的)是聚到同一个组中的样本应该彼此
相似,而属于不同组的样本应该足够不相似。
聚类算法大体上可以分为以下几种:划分方法、层次方法、基于密度的方法、基于网格的方法和基于
模型的方法。层次聚类方法可分为自下而上和自上而下两种基本方法。自下而上方法是以数据对象作为原
子类,然后将这些原子类进行聚合。逐步聚合成越来越大的类,直到满足终止条件。自上而下方法是首先
将所有数据对象作为一类,然后逐步分解成越来越小的类,直到满足终止条件。CURE算法就是一个典型的
层次聚类算法。
2 CURE算法
绝大多数聚类算法或者擅长处理球形和相似大小的聚类,或者在存在孤立点时变得比较脆弱。CURE算
法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。它不同于
单个质心或对象来代表一个类,而是选择数据空间中固定数目的具有代表性的点。一个类的代表点通过如
下方式产生:首先选择类中分散的对象,然后根据一个特定的分数或收缩因子“收缩”或移动它们。在算法的
每一步,有最近距离的代表点对(每个点来自于一个不同的类) 的两个类被合并。每个类有多于一个的代表点
使得CURE可以适应非球形的几何形状。类的收缩或凝聚可以有助于控制孤立点的影响。因此,CURE对孤
立点的处理更加健壮,而且能够识别非球形和大小变化比较大的类。针对大型数据库,CURE采用随机取样
和划分两种方法组合:一个随机样本首先被划分,每个划分被部分聚类。
CURE算法的思想主要体现在如下几个方面[3] :
(1)CURE算法采用的是聚结层次聚类。在最开始的时候,每一个对象就是一个独立的类,然后从最相似
*基金资助:教育部留学回国人员科研基金资助项目(2001498)。
作者简介:康卫鲜(1981-),女,河北石家庄人,硕士研究生,研究方向:数据挖掘。叶德谦(1954-),男,辽宁义县人,
博士,教授, 研究领域:数据仓库,人工智能和并行处理技术。
132
基于 CURE 的聚类算法研究 133
的对象开始进行合并。
(2)为了处理大数据集,采用了随机抽样和分割(Partitioning)手段。采用抽样的方法可以降低数据量,提
高算法的效率。在样本大小选择合适的情况下,一般能够得到比较好的聚类结果。另外,CURE算法还引入
了分割手段,即将样本分割为几个部分,然后针对各个部分中的对象分别进行局部聚类,形成子类。再针
对子类进行聚类,形成新的类。
(3)传统的算法常常采用一个对象来代表一个类,而CURE算法由分散的若干对象,在按收缩因子移向其
所在类的中心之后来代表该类。由于CURE算法采用多个对象来代表一个类,并通过收缩因子来调节类的形
状,因此能够处理非球形的对象分布。
(4)分两个阶段消除异常值的影响。CURE算法采用的是聚结层次聚类。在最开始的时候,每一个对象就
您可能关注的文档
- 图与矩阵-中山大学.PDF
- 图书馆的创意服务-静宜大学盖夏图书馆.ppt
- 图像重建的应用-Read.ppt
- 图度用户手册.PDF
- 土壤中拮抗放线菌的分离和筛选-河南农业科学.PDF
- 在天然药物化学实训中培养学生创新能力-Core.PDF
- 在映射f下的对应元素.ppt
- 在用汽油机油和柴油机油中稀释汽油、柴油含量的测定-ThermoFisher.PDF
- 地球物理勘查技术在广东核电站废料处置场选址中的应用-地质与勘探.PDF
- 地球物理实习课程地电阻测勘.PDF
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- A4信纸(Word打印版)完整版.docx VIP
- 高考数学复习-复数.pptx
- 伤寒论全文.doc VIP
- 施行《食品安全国家标准 预包装食品营养标签通则》(GB 28050)食品标签上碳水和糖的联系与区别.docx VIP
- 南京国民政府时期教育的历史考察.docx VIP
- 联邦学习中的因果推断和反事实学习.pptx VIP
- 关系与地点——博士论文指导工作的自省-社会学视野.doc VIP
- 新疆喀什地区2024年中考二模物理试卷(含答案).docx VIP
- DLT5841-2021 电气装置安装工程 母线装置施工及验收规范.pdf VIP
- 2025-2026学年广东省广州市八区联考高一(上)期末物理试卷(含答案).pdf VIP
原创力文档

文档评论(0)