- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对聚类算法普遍存在问题的解决办法.pdf
第9 卷 第3 期 电路与系统学报 Vol. 9 No.3
2004 年 6 月 JOURNAL OF CIRCUITS AND SYSTEMS June , 2004
文章编号:1007-0249 (2004) 03-0092-08
对聚类算法普遍存在问题的解决办法*
姜园, 张朝阳, 仇佩亮, 戚玉鹏
(浙江大学 信息与通信工程研究所,浙江 杭州310027 )
摘要:聚类广泛应用于统计、机器学习、模式识别、数据分析等领域并越来越受重视。本文研究了各种聚类算法
共同面临的五个问题:聚类效果评估、类数目估计、数据预处理、样本间相似性测量、抗干扰性能,分析了对这些问
题的有代表性的解决方法,总结并预测了未来聚类算法在这五个方面的研究方向。
关键词:聚类;效果评估;类数目估计;预处理;相似性测量;抗干扰性能
中图分类号:TP391 文献标识码:A
1 引言
聚类就是根据某种相似性准则将样本空间分成多个子空间,使每个子空间内部样本点尽可能相似,
不同子空间内样本点之间差异尽可能大,其实质是寻找隐藏在数据中不同的数据模型,是一个无监督
学习过程,能够实现样本空间的盲分类。聚类广泛应用于统计、机器学习、模式识别、数据分析等领
域,并越来越受重视。目前已有应用于多个领域的聚类算法近百种,处理对象从一般数据库到超大规
模数据库,从低维数据空间到高维数据空间,从数字属性数据到多种属性的数据。一般地,聚类算法
可分为分层聚类和分割聚类两大类,但根据应用对象的不同和处理过程的差异,聚类算法还有如下几
种分类:基于密度的聚类算法、基于栅格的聚类算法、字符属性联合处理算法、高维数据聚类算法等。
这种分类并非完备正交的,相互之间有交叉,每种分类又包括多种算法,有的算法同时包含了多种类
型算法的设计思想。本文提出了各种聚类算法共同面临的五个问题:聚类效果评估、类数目估计、数
据预处理、样本间相似性测量、抗干扰性能。这些问题反映了算法设计者对类的定义和要求,根据应
用对象的不同,不同的算法对这几个方面各有其侧重点。本文分析了对这些问题的有代表性的解决方
法,总结并预测了未来聚类算法在这五个方面的研究方向。
2 聚类效果评估
在算法设计中要考虑是否任何类的形成趋势都能在算法中得到体现,相应地就要考虑选择哪些属
性作为相似性测量对象并采用最能体现特征的数据结构。对聚类效果的评价通常有两种方式:专家评
估、自动评估机制。
专家评估要考虑两方面问题:聚类结果的可解释性、聚类结果的可视化。聚类结果的可解释性取
[1]
决于算法的类型,有些类型算法可解释性好,例如基于模型的似然率算法(如 COBWEB 算法 )具
[2][3] [4]
有很好的可解释性;K-Means 算法 和K-Medoid 算法 产生的类可视为在centroids 点和medoids 点
周围按照密度分布形成的数据块,具有较好的可解释性。有些类型算法的可解释性则较差,WaveCluster
[5] [6]
算法 根据小波系数聚类,FC (Fractal Clustering )算法 将 HFD (Hausdorff 分形维数)作为聚类目
标函数,算法的可解释性都较差。高维聚类算法通常比低维聚类算法的可解释性差。一般地,低维数
据聚类结果比高维数据聚类结果可视化程度高;数据属性越多,聚类结果可视化性能越差。对高维数
据通常采用PCA (Principal Components Analysis )和SVD (Singular Value Decomposition)技术降低维
数,虽然其结果缺乏可解释性,但便于可视化。[7]提出了一种新的高维数据可视化聚类方法,构成可
视平面的2 个坐标轴不再是降低维数后的两个属性或属性组合,而是记录序列(一个记录即为高维属
* 收稿日期:2003-08- 14 修订日期:2003- 11-
文档评论(0)