第5章 聚类分析5.45.5课件.pptVIP

  • 33
  • 0
  • 约1.08万字
  • 约 63页
  • 2017-05-22 发布于河南
  • 举报
第四节 K均值聚类分析 系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。而K—均值法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。 K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤: 1.将所有的样品分成K个初始类; 2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标; 3.重复步骤2,直到所有的样品都不能再分配时为止。 K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的: 系统聚类对不同的类数产生一系列的聚类结果, 而K—均值法只能产生指定类数的聚类结果。 具体类数的确定,离不开实践经验的积累; 有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。 下面通过一个具体问题说明K均值法的计算过程。 【例5.3】假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表5.9。 试将以上的样品聚成两类。 第一步:按要求取K=2,为了实施均值法聚类,我

文档评论(0)

1亿VIP精品文档

相关文档