聚类算法--以K-means算法为例.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类算法 --以K-means算法为例 安英博 2013.12.26 分类是指将数据归于一系列已知类别之中的某个类的分类过程。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候。 聚类是根据客体属性对一系列未分类的客体进行类别的识别,把一组个体按照相似性归成若干类。聚类属于无监督学习。 分类和聚类 在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具来发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上做进一步的分析。 聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。其中,最广泛使用的聚类算法k-means算法属于划分法。 聚类算法 给定一个有N个元组或者纪录的数据集,划分法将构造K个分组,每一个分组就代表一个聚类,KN。而且这K个分组满足下列条件: (1) 每一个分组至少包含一个数据纪录; (2)每一个数据纪录属于且仅属于一个分组(某些模糊聚类算法中该条件可以放宽); 对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。 划分法 k-means算法,也被称为k-均值或k-平均。 该算法首先随机地选择k个对象作为初始的k个簇的质心;然后对剩余的每个对象,根据其与各个质心的距离,将它赋给最近的簇,然后重新计算每个簇的质心;这个过程不断重复,直到准则函数收敛。通常采用的准则函数为平方误差和准则函数,即 SSE(sum of the squared error),其定义如下: SSE是数据库中所有对象的平方误差总和,p为数据对象,mi是簇Ci的平均值。这个准则函数使生成的结果尽可能的紧凑和独立。 k-means算法 下面给出k-means算法的具体步骤: (l) 给定大小为n的数据集,令I=1,选取k个初始聚类中心 Zj(I),j=1,2,3,…,k; (2) 计算每个数据对象与聚类中心的距离D(xi,Zj(I)),i=1, 2,3…n,j=l,2,3,…,k,如果满足 D(xi,Zk(I)) =min{D(xi,Zj(I)),i=l,2,3,…n} 则 xi∈C k; (3) 计算k个新的聚类中心: 即取聚类中所有元素各自维度的算术平均数; (4) 判断:若Zj(I+1)≠Zj(I),j=l,2,3,…,k,则I=I+1, 返回(2);否则算法结束。 k-means算法描述 距离D的计算方法 1. 欧几里得距离: 其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。 2. 曼哈顿距离: 3. 闵可夫斯基距离: k-means算法描述 K-Means 的算法如下: 随机在图中取k(这里k=2)个种子点。 对图中的所有点求到这k个种子点的距离,假如点 Pi 离种子点 Si 最近,那么 Pi 属于 Si 点群。(上图中,我们可以看到A、B属于上面的种子点,C、D、E属于下面中部的种子点) 移动种子点到属于他的“点群”的中心。(见图上的第三步) 然后重复第2)和第3)步,直到种子点不再移动(图中的第四步上面的种子点聚合了A,B,C,下面的种子点聚合了D,E)。 从图中可以看到,A, B, C, D, E 是五个在图中点。而灰色的点是种子点,也就是我们用来找点群的点。有两个种子点,所以k=2。 举例概述 应用实例 ——中国男足近几年在亚洲处于几流水平? 下图是采集的亚洲15只球队在2006年-2010年间大型比赛的战绩(澳大利亚未收录)。数据做了如下预处理:对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。 应用实例 1. 规格化数据 由于取值范围大的属性对距离的影响高于取值范围小的属性,这样不利于反映真实的相异度,因此聚类前,一般先对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取值区间,来平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为: 其中max(ai)和min(ai)表示所有元素项中第i个属性的最大值和最小值。

文档评论(0)

yaocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档