数学建模-聚类分析.pptVIP

  • 9
  • 0
  • 约5.06千字
  • 约 49页
  • 2023-09-28 发布于湖北
  • 举报
设将 个样品分成 类 , ,…, 。用 表示 中的第 个样品, 表示 中样品的个数, 是 的重心,则 的样品离差平方和为 (5)离差平方和法 如果分类正确,同类样品的离差平方和应当较小,类与类之间的离差平方和较大。 K-means 系统聚类 如果 和 合并为新类类内离差平方和分别为 Cluster K Cluster L Cluster M 离差平方和法图示: 例1 假设有5个产品,分别对每个产品测得一项质量指标X,其值如下:1,2,4.5,6,8.试对这5个产品按质量指标进行分类。 举例应用 解:设样品间距离取欧氏距离,类 间距离取最短距离。并设样品分别为 1)计算距离如下表k=5 步骤: (1)数据变换; (2)样品间距离; (3) 类间距离; (4) 分类处理; 2) 将第一和第二合并为新类如下,k=4 3)将 与 合并为新类如下 ,k=3 4)可将 和 合并为新类如下,k=2 5)最后将剩下的两类合并成一类,并类过程结束 6)画谱系结构图 返回 K-means 聚类法 基本思想 步骤: (1)数据变换; (2)确定初始类的个数; (3)聚类中心的选择; (4)样品与类中心的距离; (5)归类:按顺序计算各样品与k个凝聚点的距离,根据类间距离的定义将所有样品逐个归入k个凝聚点,得到初始分类结果。 (6)重新计算每个类的中心:重新各类的每个类的中心,作为新的凝聚点。当所有样品归类后才计算该类的类中心。 注:每个样品一归类,立即计算该类的类中心。 满足输出;不满足循环; (7)重复; 初始聚类中心的选择 初始聚类中心的选取决定着计算的迭代次数,甚至决定着最终的解是否为全局最优,所以选择一个好的初始聚类中心是很有必要的。 (1)方法一:选取前k个样品作为初始凝聚点。 (2)方法二: 选择第一个样本点作为第一个聚类中心。然后选取距离第一个点最远的点作为第二个聚 类中心。…… 第j个聚类中心要远离第1~j-1个聚类中心 重新计算每个类的中心 异同点有:k-均值算法和k-中心算法都属于聚类分析中的分类方法;k-均值算法是将类中对象的均值作为类的中心,可以是一个虚点,计算其他点与各个类中心距离,归入距离最近的类中;k-中心算法是找类中最中心的点作为类中心,是一个实际存在数据点。这只是均值与中心区别,两种算法具体流程还是不同的。 返 (1)k均值算法,其中每个类都用该类中对象的均值来表示。 (2)k中心点算法,其中每个类用接近类中心的一个对象来表示。 中国男足近几年到底在亚洲处于几流水平?下图是采集的亚洲15只球队在2005年-2010年间大型杯赛的战绩 举例应用 对数据做了如下预处理:对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。这样做是为了使得所有数据变为标量,便于后续聚类。 处理后的数据如下: 数据变换:进行[0,1]规格化得到 设k=3,即将这15支球队分成三个集团。现抽取日本、巴林和泰国的值作为三个类的种子,即初始化三个类的中心为 A:{0.3, 0, 0.19}; B:{0.7, 0.76, 0.5}; C:{1, 1, 0.5}; 初始类个数的选择; 初始类中心的选择; 计算所有球队分别对三个中心点的欧氏距离。下面是用程序求取的结果: 第一次聚类结果: A:日本,韩国,伊朗,沙特; B:乌兹别克斯坦,巴林,朝鲜; C:中国,伊拉克,卡塔尔,阿联酋,泰国,越南,阿曼,印尼。 样品到类中心的距离; 归类; 下面根据第一次聚类结果,采用k-均值法调整各个类的中心点。 A类的新中心点为:{(0.3+0+0.24+0.3)/4=0.21, (0+0.15+0.76+0.76)/4=0.4175, (0.19+0.13+0.25+0.06)/4=0.1575} = {0.21, 0.4175, 0.1575} (算术平均数。) 用同样的方法计算得到B和C类的新中心点分别为 B:{0.7, 0

文档评论(0)

1亿VIP精品文档

相关文档