聚类算法比较.doc

下载文档

0
0
约7.42千字
约 8页
2024-08-27 发布于广西
举报
版权申诉
保障服务

聚类算法比较.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类算法:

1.划分法：K-MEANS算法、K-MEDOIDS算法、CLARANS算法；

1〕K-means算法：

根本思想是初始随机给定K个簇中心，按照最邻近原那么把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。

K-Means聚类算法主要分为三个步骤：

(1)第一步是为待聚类的点寻找聚类中心

(2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去

(3)第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心

反复执行(2)、(3)，直到聚类中心不再进行大范围移动或者聚类次数到达要求为止

\t://blog.sina/s/_blank?

下列图展示了对n个样本点进行K-means聚类的效果，这里k取2：

(a)未聚类的初始点集

(b)随机选取两个点作为聚类中心

(c)计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去

(d)计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心

(e)重复(c),计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去

(f)重复(d),计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心

优点：

1.算法快速、简单;

2.对大数据集有较高的效率并且是可伸缩性的;

3.时间复杂度近于线性，而且适合挖掘大规模数据集。

缺点：

1.在K-means算法中K是事先给定的，这个K值的选定是非常难以估计的。

2.在K-means算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响。

3.从K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。

4.产生类的大小相差不会很大，对于脏数据很敏感。

K-MEDOIDS〔k-medoids〕算法

与k-means很像，不一样的地方在于中心点的选取，在K-means中，我们将中心点取为当前cluster中所有数据点的平均值，在K-medoids算法中，我们将从当前cluster中选取这样一个点——它到其他所有〔当前cluster中的〕点的距离之和最小——作为中心点。

选取一个对象叫做mediod来代替上面的中心的作用，这样的一个medoid就标识了这个类。?

K-MEDODIS的具体流程如下：?

1〕任意选取K个对象作为medoids〔O1,O2,…Oi…Ok〕。?

2〕将余下的对象分到各个类中去〔根据与medoid最相近的原那么〕；?

3〕对于每个类，顺序选取一个对象，计算用这个对象代替原中心点的方差。选择方差最小的那个对象来代替原中心点。这样K个medoids就改变了。?

4〕重复2、3步直到K个medoids固定下来。?

优点：

不容易受到那些由于误差之类的原因产生的脏数据的影响

缺点：

计算量显然要比K-means要大，一般只适合小数据量

?3〕CLARANS(AClusteringAlgorithmbasedonRandomizedSearch，基于随机选择的聚类算法)：

将采样技术〔CLARA[Clara算法的思想就是用实际数据的抽样来代替整个数据，然后再在这些抽样的数据上利用K-medoids算法得到最正确的medoids。Clara算法从实际数据中抽取多个采样，在每个采样上都用K-medoids算法得到相应的〔O1,O2…Oi…Ok〕，然后在这当中选取E最小的一个作为最终的结果]〕和PAM〔找出中心点〕结合起来。CLARA的主要思想是：不考虑整个数据集合，而是选择实际数据的一小局部作为数据的代表。然后用PAM方法从样本中选择中心点。如果样本是以非常随机的方式选取的，那么它应当接近代表原来的数据集。从中选出代表对象〔中心点〕很可能和从整个数据集合中选出的代表对象相似。CLARA抽取数据集合的多个样本，对每个样本应用PAM算法，并返回最好的聚类结果作为输出。?

????????CLARA的有效性主要取决于样本的大小。如果任何一个最正确抽样中心点不在最正确的K个中心之中，那么CLARA将永远不能找到数据集合的最正确聚类。同时这也是为了聚类效率做付出的代价。?

????????CLARANS聚类那么是将CLARA和PAM有效的结合起来，CLARANS在任何时候都不把自身局限于任何样本，CLARANS在搜素的每一步都以某种随机性选取样本。算法步骤如下〔算法步骤摘自百度文库〕：?

1、输入参数numlocal和maxneighbor。numlocal表示抽样的次

您可能关注的文档

文档评论（0）

181****7662 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

聚类算法比较.doc