改进C- 均值聚类算法.pptVIP

  • 19
  • 0
  • 约4.14千字
  • 约 9页
  • 2019-03-06 发布于江苏
  • 举报
改进C- 均值聚类算法 C均值算法属于聚类技术中一种基本的划分方法,具有简单、快速的优点。其基本思想是选取c个数据对象作为初始聚类中心,通过迭代把数据对象划分到不同的簇中,使簇内部对象之间的相似度很大,而簇之间对象的相似度很小。对C均值算法的初始聚类中心选择方法进行了改进,提出了一种从数据对象分布出发动态寻找并确定初始聚类中心的思路以及基于这种思路的改进算法。 1、基于最小距离的初始聚类中心选取法 其主要思想: (1) 计算数据对象两两之间的距离; (2) 找出距离最近的两个数据对象,形成一个数据对象集合A1 ,并将它们从总的数据集合U中删除; (3) 计算A1 中每一个数据对象与数据对象集合U 中每一个样本的距离,找出在U中与A1 中最近的数据对象,将它并入集合A1 并从U 中删除, 直到A1 中的数据对象个数到达一定阈值; (4) 再从U中找到样本两两间距离最近的两个数据对象构成A2 ,重复上面的过程,直到形成k个对象集合; (5) 最后对k个对象集合分别进行算术平均,形成k个初始聚类中心。 2、基于取样思想的的改进C均值算法 首先对样本数据采用K-means算法进行聚类,产生一组聚类中心。然后将这组聚类中心作为初始聚类中心,在采用K-means算法进行聚类。 在此,也可以在第一步中,对样本数据采用K-means算法进行n次聚类运算,每次产生一组聚类中心,对n组聚类中心进行算术平均,从而得到c组初始聚类中心。 算法: 输入:样本集合data,C; 输出:c个聚类中心; K—means(data,k) 然后将输出的c个聚类中心作为初始聚类中心再用K-means得出聚类结果; 3、结果 ww1 = Columns 1 through 11 1739.9 1756.8 1803.6 1571.2 1845.6 1692.6 1680.7 1651.5 1702.8 1877.9 1831.5 1675.2 1652 1583.1 1731 1918.8 1867.5 1575.8 1713.3 1639.8 1861 1713.1 2396 1515 2163.1 1735.3 2226.5 2109 1725.1 1570.4 2068.7 1975.3 1604.7 1 3 7 11 17 20 21 26 30 31 33 Columns 12 through 20 1783.6 1597 1598.9 1507.1 1580.1 1962.4 1802.1 1817.4 1860.5 1598 1921.5 1921.1 1556.9 1752.1 1595 1725.8 1927.4 1782.9 2261.3 2126.8 1623.3 1954.5 2463 1836 1966.3 2328.8 1875.1 37 40 41 47 51 52 57 58 59 ww2 = Columns 1 through 11 2352.1 2297.3 2092.6 2205.4 2949.2 2802.9 2063.5 2375 2271.9 2336.3

文档评论(0)

1亿VIP精品文档

相关文档