第7章:数据聚类.ppt

第7章:数据聚类

划分聚类算法 一种直接方法就是观察聚类的类内差异(within cluster variation)和类间差异(Between cluster variation)。 类内差异:衡量聚类的紧凑性,类内差异可以用特定的距离函数来定义,例如, 类间差异:衡量不同聚类之间的距离,类间差异定义为聚类中心间的距离,例如, 聚类的总体质量可被定义为w(c)和b(c)的一个单调组合,比如w(c) / b(c) 。 * * k-means算法 k-means 算法基本步骤 从 n个数据对象任意选择 k 个对象作为初始聚类中心; 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; 重新计算每个(有变化)聚类的均值(中心对象);    计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤2。 * * k-means算法 * * 算法5-1 k-means算法 输入:簇的数目k和包含n个样本的数据库。 输出:k个簇,使平方误差准则最小。 (1)assign initial value for means; /*任意选择k个对象作为初始的簇中心;*/ (2) REPEAT (3) FOR j=1 to n DO assign each xj to the closest centers; (4) FOR i=1 to k DO / *更新簇平均值*/ (5) Compute /*计算准则函数E*/ (6) UNTIL E不再明显地发生变化。 k-means算法 初始化聚类中心(k=3); 根据每个样本到各个中心的距离,计算k个簇。 使用每个簇的样本,对每个簇生成新的中心。 重复STEP2和STEP3直到终止条件满足。 * * 划分聚类算法 请使用k-means算法对左边的样本进行分类,其中k=2,初始中心为样本1和样本3。(第一次迭代) * * 样本数据 序号 属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4 划分聚类算法 红色的样本属于一个簇,橙色的样本属于一个簇 计算每个簇新的中心 使用新的中心,重新对每个样本所在的簇进行分配(第二次迭代) * * 样本数据 序号 属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4 划分聚类算法 红色的样本属于一个簇,橙色的样本属于一个簇 计算每个簇新的中心 使用新的中心,重新对每个样本所在的簇进行分配(第三次迭代) 簇的分配情况没有变化,聚类终止 * * 样本数据 序号 属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4 k-means算法例题 * * 样本数据 序号 属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档