聚类分析-SWUFEFaculty.pptVIP

  • 7
  • 0
  • 约4.6千字
  • 约 43页
  • 2017-09-04 发布于重庆
  • 举报
基于距离的方法进行聚类只能发现球状类,当类的形状是任意的时候怎么识别? 下面介绍其中一种常用的算法: 3.4 基于密度的方法 (density-based method) 主要有DBSCAN,OPTICS法 思想: 只要临近区域的密度超过一定的阀值,就继续聚类 特点: 可以过滤噪声和孤立点outlier,发现任意形状的类 3.5 基于网格的方法 (grid-based method) 把样本空间量化为有限数目的单元,形成一个网络结构,聚类操作都在这个网格结构(即量化空间)上进行 3.6 基于模型的方法 (model-based method) 为每个类假定一个模型,寻找数据对给定模型的最佳拟合。 此不详述,有兴趣可以参考《DataMing Concepts and Techniques》即《数据挖掘概念于技术》Jiawei Han Micheline Kamber机械工业出版社 4 不稳定的聚类方法 受所选择变量的影响 如果去掉或者增加一些变量,结果会很不同.因此,聚类之前一定要明确目标,选择有意义的变量。 变量之间的相关性也会影响聚类结果,因此可以先用主成分或因子分析法把众多变量压缩为若干个相互独立的并包含大部分信息的指标,然后再进行聚类。 4 不稳定的聚类方法 输入参数凭主观导致难以控制聚类的质量 很多聚类算法要求输入一定的参数,如希望产生的类的数目,使得聚类的质量难以控制

文档评论(0)

1亿VIP精品文档

相关文档