数学建模-聚类分析.pptVIP

下载本文档

9
0
约5.06千字
约 49页
2023-09-28 发布于湖北
举报

数学建模-聚类分析.ppt

设将个样品分成类，，…，。用表示中的第个样品, 表示中样品的个数，是的重心，则的样品离差平方和为 (5)离差平方和法如果分类正确，同类样品的离差平方和应当较小，类与类之间的离差平方和较大。 K-means 系统聚类如果和合并为新类类内离差平方和分别为 Cluster K Cluster L Cluster M 离差平方和法图示：例1 假设有5个产品，分别对每个产品测得一项质量指标X，其值如下：1，2，4.5，6，8.试对这5个产品按质量指标进行分类。举例应用解：设样品间距离取欧氏距离，类间距离取最短距离。并设样品分别为 1）计算距离如下表k=5 步骤：（1）数据变换；（2）样品间距离; (3) 类间距离; (4) 分类处理； 2) 将第一和第二合并为新类如下,k=4 3)将与合并为新类如下 ,k=3 4）可将和合并为新类如下，k=2 5)最后将剩下的两类合并成一类，并类过程结束 6）画谱系结构图返回 K-means 聚类法基本思想步骤：（1）数据变换；（2）确定初始类的个数；（3）聚类中心的选择; （4）样品与类中心的距离；（5）归类：按顺序计算各样品与k个凝聚点的距离，根据类间距离的定义将所有样品逐个归入k个凝聚点，得到初始分类结果。（6）重新计算每个类的中心：重新各类的每个类的中心，作为新的凝聚点。当所有样品归类后才计算该类的类中心。注：每个样品一归类，立即计算该类的类中心。满足输出；不满足循环；（7）重复；初始聚类中心的选择初始聚类中心的选取决定着计算的迭代次数，甚至决定着最终的解是否为全局最优，所以选择一个好的初始聚类中心是很有必要的。（1）方法一：选取前k个样品作为初始凝聚点。 (2)方法二：选择第一个样本点作为第一个聚类中心。然后选取距离第一个点最远的点作为第二个聚类中心。…… 第j个聚类中心要远离第1~j-1个聚类中心重新计算每个类的中心异同点有：k-均值算法和k-中心算法都属于聚类分析中的分类方法；k-均值算法是将类中对象的均值作为类的中心，可以是一个虚点，计算其他点与各个类中心距离，归入距离最近的类中；k-中心算法是找类中最中心的点作为类中心，是一个实际存在数据点。这只是均值与中心区别，两种算法具体流程还是不同的。返（1）k均值算法，其中每个类都用该类中对象的均值来表示。（2）k中心点算法，其中每个类用接近类中心的一个对象来表示。中国男足近几年到底在亚洲处于几流水平？下图是采集的亚洲15只球队在2005年-2010年间大型杯赛的战绩举例应用对数据做了如下预处理：对于世界杯，进入决赛圈则取其最终排名，没有进入决赛圈的，打入预选赛十强赛赋予40，预选赛小组未出线的赋予50。对于亚洲杯，前四名取其排名，八强赋予5，十六强赋予9，预选赛没出现的赋予17。这样做是为了使得所有数据变为标量，便于后续聚类。处理后的数据如下：数据变换：进行[0,1]规格化得到设k=3，即将这15支球队分成三个集团。现抽取日本、巴林和泰国的值作为三个类的种子，即初始化三个类的中心为 A：{0.3, 0, 0.19}； B：{0.7, 0.76, 0.5}； C：{1, 1, 0.5}；初始类个数的选择；初始类中心的选择；计算所有球队分别对三个中心点的欧氏距离。下面是用程序求取的结果：第一次聚类结果： A：日本，韩国，伊朗，沙特； B：乌兹别克斯坦，巴林，朝鲜； C：中国，伊拉克，卡塔尔，阿联酋，泰国，越南，阿曼，印尼。样品到类中心的距离；归类；下面根据第一次聚类结果，采用k-均值法调整各个类的中心点。 A类的新中心点为：{(0.3+0+0.24+0.3)/4=0.21, (0+0.15+0.76+0.76)/4=0.4175, (0.19+0.13+0.25+0.06)/4=0.1575} = {0.21, 0.4175, 0.1575} （算术平均数。）用同样的方法计算得到B和C类的新中心点分别为 B：{0.7, 0

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数学建模-聚类分析.pptVIP