算法杂货铺——k均值聚类(K-means)要领.docxVIP

  • 6
  • 0
  • 约4.36千字
  • 约 9页
  • 2017-08-29 发布于湖北
  • 举报

算法杂货铺——k均值聚类(K-means)要领.docx

算法杂货铺——k均值聚类(K-means)2010-09-20 20:05 by EricZhang(T2噬菌体), 3664 visits, 网摘, 收藏, 编辑4.1、摘要????? 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度,然后介绍一种常见的聚类算法——k均值和k中心点聚类,最后会举一个实例:应用聚类方法试图解决一个在体育界大家颇具争议的问题——中国男足近几年在亚洲到底处于几流水平。4.2、相异度计算????? 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。????? 设,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:,其中R为实数域。也就是说相异度是两个元素对实数域的

文档评论(0)

1亿VIP精品文档

相关文档