第7章：数据聚类.ppt

下载文档 降价啦

10
0
约8.01千字
约 54页
2017-11-22 发布于江苏
举报
保障服务

第7章：数据聚类.ppt

第7章：数据聚类

划分聚类算法一种直接方法就是观察聚类的类内差异(within cluster variation)和类间差异(Between cluster variation)。类内差异：衡量聚类的紧凑性，类内差异可以用特定的距离函数来定义，例如，类间差异：衡量不同聚类之间的距离，类间差异定义为聚类中心间的距离，例如，聚类的总体质量可被定义为w(c)和b(c)的一个单调组合，比如w(c) / b(c) 。 * * k-means算法 k-means 算法基本步骤从 n个数据对象任意选择 k 个对象作为初始聚类中心；根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；重新计算每个(有变化)聚类的均值(中心对象)；　　计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤2。 * * k-means算法 * * 算法5-1 k-means算法输入：簇的数目k和包含n个样本的数据库。输出：k个簇，使平方误差准则最小。（1)assign initial value for means; /*任意选择k个对象作为初始的簇中心；*/ (2) REPEAT (3) FOR j=1 to n DO assign each xj to the closest centers; (4) FOR i=1 to k DO / *更新簇平均值*/ (5) Compute /*计算准则函数E*/ (6) UNTIL E不再明显地发生变化。 k-means算法初始化聚类中心(k=3)；根据每个样本到各个中心的距离，计算k个簇。使用每个簇的样本，对每个簇生成新的中心。重复STEP2和STEP3直到终止条件满足。 * * 划分聚类算法请使用k-means算法对左边的样本进行分类，其中k=2，初始中心为样本1和样本3。(第一次迭代) * * 样本数据序号属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4 划分聚类算法红色的样本属于一个簇，橙色的样本属于一个簇计算每个簇新的中心使用新的中心，重新对每个样本所在的簇进行分配(第二次迭代) * * 样本数据序号属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4 划分聚类算法红色的样本属于一个簇，橙色的样本属于一个簇计算每个簇新的中心使用新的中心，重新对每个样本所在的簇进行分配(第三次迭代) 簇的分配情况没有变化，聚类终止 * * 样本数据序号属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4 k-means算法例题 * * 样本数据序号属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第7章：数据聚类.ppt