对聚类算法普遍存在问题的解决办法.pdfVIP

下载本文档

33
0
约2.91万字
约 8页
2017-08-22 发布于重庆
举报
版权申诉

对聚类算法普遍存在问题的解决办法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

对聚类算法普遍存在问题的解决办法.pdf

第9 卷第3 期电路与系统学报 Vol. 9 No.3 2004 年 6 月 JOURNAL OF CIRCUITS AND SYSTEMS June ， 2004 文章编号：1007-0249 (2004) 03-0092-08 对聚类算法普遍存在问题的解决办法* 姜园，张朝阳，仇佩亮，戚玉鹏（浙江大学信息与通信工程研究所，浙江杭州310027 ）摘要：聚类广泛应用于统计、机器学习、模式识别、数据分析等领域并越来越受重视。本文研究了各种聚类算法共同面临的五个问题：聚类效果评估、类数目估计、数据预处理、样本间相似性测量、抗干扰性能，分析了对这些问题的有代表性的解决方法，总结并预测了未来聚类算法在这五个方面的研究方向。关键词：聚类；效果评估；类数目估计；预处理；相似性测量；抗干扰性能中图分类号：TP391 文献标识码：A 1 引言聚类就是根据某种相似性准则将样本空间分成多个子空间，使每个子空间内部样本点尽可能相似，不同子空间内样本点之间差异尽可能大，其实质是寻找隐藏在数据中不同的数据模型，是一个无监督学习过程，能够实现样本空间的盲分类。聚类广泛应用于统计、机器学习、模式识别、数据分析等领域，并越来越受重视。目前已有应用于多个领域的聚类算法近百种，处理对象从一般数据库到超大规模数据库，从低维数据空间到高维数据空间，从数字属性数据到多种属性的数据。一般地，聚类算法可分为分层聚类和分割聚类两大类，但根据应用对象的不同和处理过程的差异，聚类算法还有如下几种分类：基于密度的聚类算法、基于栅格的聚类算法、字符属性联合处理算法、高维数据聚类算法等。这种分类并非完备正交的，相互之间有交叉，每种分类又包括多种算法，有的算法同时包含了多种类型算法的设计思想。本文提出了各种聚类算法共同面临的五个问题：聚类效果评估、类数目估计、数据预处理、样本间相似性测量、抗干扰性能。这些问题反映了算法设计者对类的定义和要求，根据应用对象的不同，不同的算法对这几个方面各有其侧重点。本文分析了对这些问题的有代表性的解决方法，总结并预测了未来聚类算法在这五个方面的研究方向。 2 聚类效果评估在算法设计中要考虑是否任何类的形成趋势都能在算法中得到体现，相应地就要考虑选择哪些属性作为相似性测量对象并采用最能体现特征的数据结构。对聚类效果的评价通常有两种方式：专家评估、自动评估机制。专家评估要考虑两方面问题：聚类结果的可解释性、聚类结果的可视化。聚类结果的可解释性取 [1] 决于算法的类型，有些类型算法可解释性好，例如基于模型的似然率算法（如 COBWEB 算法）具 [2][3] [4] 有很好的可解释性；K-Means 算法和K-Medoid 算法产生的类可视为在centroids 点和medoids 点周围按照密度分布形成的数据块，具有较好的可解释性。有些类型算法的可解释性则较差，WaveCluster [5] [6] 算法根据小波系数聚类，FC （Fractal Clustering ）算法将 HFD （Hausdorff 分形维数）作为聚类目标函数，算法的可解释性都较差。高维聚类算法通常比低维聚类算法的可解释性差。一般地，低维数据聚类结果比高维数据聚类结果可视化程度高；数据属性越多，聚类结果可视化性能越差。对高维数据通常采用PCA （Principal Components Analysis ）和SVD （Singular Value Decomposition）技术降低维数，虽然其结果缺乏可解释性，但便于可视化。[7]提出了一种新的高维数据可视化聚类方法，构成可视平面的2 个坐标轴不再是降低维数后的两个属性或属性组合，而是记录序列（一个记录即为高维属 * 收稿日期：2003-08- 14 修订日期：2003- 11-