算法杂货铺——k均值聚类(K-means)要领.docxVIP

下载本文档

6
0
约4.36千字
约 9页
2017-08-29 发布于湖北
举报

算法杂货铺——k均值聚类(K-means)要领.docx

算法杂货铺——k均值聚类(K-means)2010-09-20 20:05 by EricZhang(T2噬菌体), 3664 visits, 网摘, 收藏, 编辑4.1、摘要????? 在前面的文章中，介绍了三种常见的分类算法。分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。聚类属于无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度，然后介绍一种常见的聚类算法——k均值和k中心点聚类，最后会举一个实例：应用聚类方法试图解决一个在体育界大家颇具争议的问题——中国男足近几年在亚洲到底处于几流水平。4.2、相异度计算????? 在正式讨论聚类前，我们要先弄清楚一个问题：如何定量计算两个可比较元素间的相异度。用通俗的话说，相异度就是两个东西差别有多大，例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度，这是能我们直观感受到的。但是，计算机没有这种直观感受能力，我们必须对相异度在数学上进行定量定义。????? 设，其中X，Y是两个元素项，各自具有n个可度量特征属性，那么X和Y的相异度定义为：，其中R为实数域。也就是说相异度是两个元素对实数域的

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

算法杂货铺——k均值聚类(K-means)要领.docxVIP