- 14
- 0
- 约2.73千字
- 约 17页
- 2016-12-11 发布于重庆
- 举报
K-MEANS与高斯混合模型李翔 2013年7月15日K-means算法,也被称为K-均值,是一种得到最广泛使 用的聚类算法。它是将各个聚类内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚类性能的准则函数能达到最优,从而使生成的每个聚类内紧凑,类间独立。 K-MEANS算法流程 从样本选K个对象作为初始聚类的中心 根据样本与聚类中心的相异度判断每个样本属于哪个簇 每个簇中重新计算聚类中心 重复2、3步骤直到聚类不再变化标量:闵可夫斯基距离:曼哈顿距离:欧几里得距离: 对于每个样本,计算出它与每个样本中心的距离,距离最小的样本中心则视为相异度最低,则该样本属于该样本中心对应的簇,从而可以计算出每个样本都属于哪个簇。 根据样本与聚类中心的相异度判断每个 样本属于哪个簇二元变量:取值不同的同位属性数/单个元素的属性位数 二元变量是只能取0和1两种值变量,例如X={1,0,0,0,1,0,1,1},Y={0,0,0,1,1,1,1,1},可以看到,两个元素第2、3、5、7和8个属性取值相同,而第1、4和6个取值不同,那么相异度可以标识为3/8=0.375 向量:(相似度)在每个簇中重新计算聚类中心:将同一个簇的样本的每个属性求平均值,从而计算出每个簇的聚类中心。此处可以生成新的K个聚类中心,用于下次计算样本属于的类别。
原创力文档

文档评论(0)