聚类算法比较.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

聚类算法:

1.划分法:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;

1〕K-means算法:

根本思想是初始随机给定K个簇中心,按照最邻近原那么把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。

K-Means聚类算法主要分为三个步骤:

(1)第一步是为待聚类的点寻找聚类中心

(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去

(3)第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心

反复执行(2)、(3),直到聚类中心不再进行大范围移动或者聚类次数到达要求为止

\t://blog.sina/s/_blank?

下列图展示了对n个样本点进行K-means聚类的效果,这里k取2:

(a)未聚类的初始点集

(b)随机选取两个点作为聚类中心

(c)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去

(d)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心

(e)重复(c),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去

(f)重复(d),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心

??

优点:

1.算法快速、简单;

2.对大数据集有较高的效率并且是可伸缩性的;

3.时间复杂度近于线性,而且适合挖掘大规模数据集。

缺点:

1.在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。

2.在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响。

3.从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。

4.产生类的大小相差不会很大,对于脏数据很敏感。

K-MEDOIDS〔k-medoids〕算法

与k-means很像,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值,在K-medoids算法中,我们将从当前cluster中选取这样一个点——它到其他所有〔当前cluster中的〕点的距离之和最小——作为中心点。

选取一个对象叫做mediod来代替上面的中心的作用,这样的一个medoid就标识了这个类。?

K-MEDODIS的具体流程如下:?

1〕任意选取K个对象作为medoids〔O1,O2,…Oi…Ok〕。?

2〕将余下的对象分到各个类中去〔根据与medoid最相近的原那么〕;?

3〕对于每个类,顺序选取一个对象,计算用这个对象代替原中心点的方差。选择方差最小的那个对象来代替原中心点。这样K个medoids就改变了。?

4〕重复2、3步直到K个medoids固定下来。?

优点:

不容易受到那些由于误差之类的原因产生的脏数据的影响

缺点:

计算量显然要比K-means要大,一般只适合小数据量

?3〕CLARANS(AClusteringAlgorithmbasedonRandomizedSearch,基于随机选择的聚类算法):

将采样技术〔CLARA[Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最正确的medoids。Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids算法得到相应的〔O1,O2…Oi…Ok〕,然后在这当中选取E最小的一个作为最终的结果]〕和PAM〔找出中心点〕结合起来。CLARA的主要思想是:不考虑整个数据集合,而是选择实际数据的一小局部作为数据的代表。然后用PAM方法从样本中选择中心点。如果样本是以非常随机的方式选取的,那么它应当接近代表原来的数据集。从中选出代表对象〔中心点〕很可能和从整个数据集合中选出的代表对象相似。CLARA抽取数据集合的多个样本,对每个样本应用PAM算法,并返回最好的聚类结果作为输出。?

????????CLARA的有效性主要取决于样本的大小。如果任何一个最正确抽样中心点不在最正确的K个中心之中,那么CLARA将永远不能找到数据集合的最正确聚类。同时这也是为了聚类效率做付出的代价。?

????????CLARANS聚类那么是将CLARA和PAM有效的结合起来,CLARANS在任何时候都不把自身局限于任何样本,CLARANS在搜素的每一步都以某种随机性选取样本。算法步骤如下〔算法步骤摘自百度文库〕:?

1、输入参数numlocal和maxneighbor。numlocal表示抽样的次

文档评论(0)

181****7662 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档