K-means聚类算法精品.pdfVIP

下载本文档

8
0
约 3页
2017-08-22 发布于河北
举报
版权申诉

K-means聚类算法精品.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K-means 聚类算法 JerryLead csxulijie@ K-means 也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。看了Andrew Ng 的这个讲义后才有些明白K-means 后面包含的EM 思想。聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM 等都是有类别标签 y 的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y ，只有特征x ，比如假设宇宙中的星星可以表示成三维空间中的点集(x,y,z)。聚类的目的是找到每个样本x 潜在的类别y ，并将同类别y 的样本x 放在一起。比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。 ( ) ( ) ( ) 1 在聚类问题中，给我们的训练样本是* , …, +，每个 ∈ ℝ ，没有了y 。 K-means 算法是将样本聚类成k 个簇（cluster ），具体算法描述如下： 1、随机选取k 个聚类质心点（cluster centroids ）为 , , …, ∈ ℝ 。 1 2 2、重复下面过程直到收敛 { 对于每一个样例i，计算其应该属于的类对于每一个类j ，重新计算该类的质心 } (i) (i) K 是我们事先给定的聚类数，代表样例i 与k 个类中距离最近的那个类，的值是1 到k 中的一个。质心代表我们对属于同一个类的样本中心点的猜测，拿星团模型来解释就是要将所有的星星聚成k 个星团，首先随机选取k 个宇宙中的点（或者k 个星星）作为k 个星团的质心，然后第一步对于每一个星星计算其到k 个质心中每一个的距离，然后选取距离 (i) 最近的那个星团作为，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计算它的质心（对里面所有的星星坐标求平均）。重复迭代第一步和第二步直到质心不变或者变化很小。下图展示了对n 个样本点进行K-means 聚类的效果，这里k 取2 。 K-means 面对的第一个问题是如何保证收敛，前面的算法中强调结束条件就是收敛，可以证明的是K-means 完全可以保证收敛性。下面我们定性的描述一下收敛性，我们定义畸变函数（distortion function）如下： J 函数表示每个样本点到其质心的距离平方和。K-means 是要将J 调整到最小。假设当 (i) 前J 没有达到最小值，那么首先可以固定每个类的质心，调整每个样例的所属的类别来 (i) 让J 函数减少，同样，固定，调整每个类的质心也可以使J 减小。这两个过程就是内循