- 9
- 0
- 约5.06千字
- 约 49页
- 2023-09-28 发布于湖北
- 举报
设将 个样品分成 类 , ,…, 。用 表示 中的第 个样品, 表示 中样品的个数, 是 的重心,则 的样品离差平方和为 (5)离差平方和法 如果分类正确,同类样品的离差平方和应当较小,类与类之间的离差平方和较大。 K-means 系统聚类 如果 和 合并为新类类内离差平方和分别为 Cluster K Cluster L Cluster M 离差平方和法图示: 例1 假设有5个产品,分别对每个产品测得一项质量指标X,其值如下:1,2,4.5,6,8.试对这5个产品按质量指标进行分类。 举例应用 解:设样品间距离取欧氏距离,类 间距离取最短距离。并设样品分别为 1)计算距离如下表k=5 步骤: (1)数据变换; (2)样品间距离; (3) 类间距离; (4) 分类处理; 2) 将第一和第二合并为新类如下,k=4 3)将 与 合并为新类如下 ,k=3 4)可将 和 合并为新类如下,k=2 5)最后将剩下的两类合并成一类,并类过程结束 6)画谱系结构图 返回 K-means 聚类法 基本思想 步骤: (1)数据变换; (2)确定初始类的个数; (3)聚类中心的选择; (4)样品与类中心的距离; (5)归类:按顺序计算各样品与k个凝聚点的距离,根据类间距离的定义将所有样品逐个归入k个凝聚点,得到初始分类结果。 (6)重新计算每个类的中心:重新各类的每个类的中心,作为新的凝聚点。当所有样品归类后才计算该类的类中心。 注:每个样品一归类,立即计算该类的类中心。 满足输出;不满足循环; (7)重复; 初始聚类中心的选择 初始聚类中心的选取决定着计算的迭代次数,甚至决定着最终的解是否为全局最优,所以选择一个好的初始聚类中心是很有必要的。 (1)方法一:选取前k个样品作为初始凝聚点。 (2)方法二: 选择第一个样本点作为第一个聚类中心。然后选取距离第一个点最远的点作为第二个聚 类中心。…… 第j个聚类中心要远离第1~j-1个聚类中心 重新计算每个类的中心 异同点有:k-均值算法和k-中心算法都属于聚类分析中的分类方法;k-均值算法是将类中对象的均值作为类的中心,可以是一个虚点,计算其他点与各个类中心距离,归入距离最近的类中;k-中心算法是找类中最中心的点作为类中心,是一个实际存在数据点。这只是均值与中心区别,两种算法具体流程还是不同的。 返 (1)k均值算法,其中每个类都用该类中对象的均值来表示。 (2)k中心点算法,其中每个类用接近类中心的一个对象来表示。 中国男足近几年到底在亚洲处于几流水平?下图是采集的亚洲15只球队在2005年-2010年间大型杯赛的战绩 举例应用 对数据做了如下预处理:对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。这样做是为了使得所有数据变为标量,便于后续聚类。 处理后的数据如下: 数据变换:进行[0,1]规格化得到 设k=3,即将这15支球队分成三个集团。现抽取日本、巴林和泰国的值作为三个类的种子,即初始化三个类的中心为 A:{0.3, 0, 0.19}; B:{0.7, 0.76, 0.5}; C:{1, 1, 0.5}; 初始类个数的选择; 初始类中心的选择; 计算所有球队分别对三个中心点的欧氏距离。下面是用程序求取的结果: 第一次聚类结果: A:日本,韩国,伊朗,沙特; B:乌兹别克斯坦,巴林,朝鲜; C:中国,伊拉克,卡塔尔,阿联酋,泰国,越南,阿曼,印尼。 样品到类中心的距离; 归类; 下面根据第一次聚类结果,采用k-均值法调整各个类的中心点。 A类的新中心点为:{(0.3+0+0.24+0.3)/4=0.21, (0+0.15+0.76+0.76)/4=0.4175, (0.19+0.13+0.25+0.06)/4=0.1575} = {0.21, 0.4175, 0.1575} (算术平均数。) 用同样的方法计算得到B和C类的新中心点分别为 B:{0.7, 0
您可能关注的文档
最近下载
- 第10课《学会表达》教案-2025-2026学年第二学期三年级道德与法治统编版下册.docx
- 2026年湖南环境生物职业技术学院单招职业倾向性考试模拟测试卷附答案.docx VIP
- 2025年AWS认证AmazonRDS只读副本的只读副本用于数据仓库ETL专题试卷及解析.docx VIP
- (5)--《食品添加剂》课程教案.doc VIP
- (3)XH-BJDW-72(GY.24)型LED信号机故障报警仪说明书V1.0.pdf VIP
- 2026年广东教师招聘考试(教育教学通用能力测试)历年参考题库含答案详解.docx VIP
- 机械制造技术基础贾振元课后答案.pdf VIP
- ISO 22163:2023标准培训讲义.pptx
- 分析绿色建筑材料与传统建筑材料在性能和成本方面的优劣对比.pptx VIP
- 外研版五年级下册英语全册教案(三起).pdf VIP
原创力文档

文档评论(0)