《数据仓库与数据挖掘》课件_第7章：数据挖掘方法 - 聚类.pptVIP

下载本文档

1
0
约2.71千字
约 39页
2025-10-18 发布于广东
举报

《数据仓库与数据挖掘》课件_第7章：数据挖掘方法 - 聚类.ppt

7.3.4划分方法：K-means7.3.4划分方法：K-means收敛聚类实例：中国男足在亚洲什么水平？亚洲15只球队在2005-2010年间大型杯赛的战绩，其中包括两次世界杯和一次亚洲杯。对数据做预处理：对于世界杯，进入决赛圈则取其最终排名，没有进入决赛圈的，打入预选赛十强赛赋予40，预选赛小组未出线的赋予50。对于亚洲杯，前四名取其排名，八强赋予5，十六强赋予9，预选赛没出现的予177.3.4划分方法：K-means下面先对数据进行[0,1]规格化，下面是规格化后的数据：?接着用k-means算法进行聚类。设k=3，即将这15支球队分成三个集团。现抽取日本、巴林和泰国的值作为三个簇的种子，即初始化三个簇的中心为A：{0.3,?0,?0.19}，B：{0.7,?0.76,?0.5}和C：{1,?1,?0.5}。下面，计算所有球队分别对三个中心点的相异度，这里以欧氏距离度量。下面是用程序求取的结果：?从做到右依次表示各支球队到当前中心点的欧氏距离，将每支球队分到最近的簇，可对各支球队做如下聚类：中国C，日本A，韩国A，伊朗A，沙特A，伊拉克C，卡塔尔C，阿联酋C，乌兹别克斯坦B，泰国C，越南C，阿曼C，巴林B，朝鲜B印尼C。日本巴林泰国聚类习题（划分方法）Oxy10220031.50450552数据对象集合S如下表，共有5个事物O1-O5，每一个事物都是二维样本（x，y），要求k=2，且初始聚类中心为O1，O2，做K-means聚类分析由于在两次迭代中，簇中心不变，所以停止迭代过程，算法停止。大数据分析实务

第7章数据挖掘方法7.3聚类分析聚类分析聚类分析聚类分析聚类分析聚类分析7.3.1聚类定义聚类就是按照事物的某些属性，把事物聚集成类，使类间的相似性尽可能小，类内相似性尽可能大。7.3.1聚类定义7.3.1聚类定义一个能产生高质量聚类的算法必须满足下面两个条件:7.3.2聚类分析中的数据许多基于内存的聚类算法选择两种有代表性的数据结构：数据矩阵和相异度矩阵7.3.2聚类分析中的数据d(i,j)表示对象i和对象j之间的差异（或不相似程度）；通常d(i,j)为一个非负数；当对象i和对象j非常相似或彼此“接近”时，该数值接近0；该数值越大，就表示对象i和对象j越不相似。由于有d(i,j)=d(j,i)且d(i,i)=07.3.2聚类分析中的数据欧氏距离7.3.3层次方法层次的聚类方法可以分为凝聚的（agglomerative）和分裂的（divisive）层次聚类。一旦一个合并或分裂被执行，就不能修正，因此一个纯粹的层次聚类方法的聚类质量受到了一定的限制。7.3.3层次方法凝聚的层次聚类：首先将每个对象作为一族，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足。一般来说为最小距离法，即找出哪两个事物距离最短。绝大多数层次聚类方法属于这一类，它们只是在簇间相似度的定义上会有所不同。7.3.3层次方法分裂的层次聚类：首先将所有对象作为一族，然后逐步分裂这个族中的点，直到所有的对象被分开到满足某个终结条件。一般来说为最大距离法，即找出哪两个事物距离最长。例为了研究辽宁等5省1991年城镇居民生活消费情况的分布规律，根据调查资料做类型分类，用最短距离做类间分类。数据如下：x1x2x3x4x5x6x7x8辽宁17.9039.778.4912.9419.2711.052.0413.29浙江27.6850.3711.3513.3019.2514.592.7514.87河南39.4227.938.208.1416.179.421.559.76甘肃49.1627.989.019.3215.999.101.8211.35青海510.0628.6410.5210.0516.188.391.9610.81将每一个省区视为一个样本，先计算5个省区之间的欧式距离，用D0表示距离矩阵（对称阵，故给出下三角阵）因此将3.4合并为一类，为类6，替代了3、4两类类6与剩余的1、2、5之间的距离分别为：d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《数据仓库与数据挖掘》课件_第7章：数据挖掘方法 - 聚类.pptVIP