- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
聚类算法:
1.划分法:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;
1〕K-means算法:
根本思想是初始随机给定K个簇中心,按照最邻近原那么把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。
K-Means聚类算法主要分为三个步骤:
(1)第一步是为待聚类的点寻找聚类中心
(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去
(3)第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
反复执行(2)、(3),直到聚类中心不再进行大范围移动或者聚类次数到达要求为止
\t://blog.sina/s/_blank?
下列图展示了对n个样本点进行K-means聚类的效果,这里k取2:
(a)未聚类的初始点集
(b)随机选取两个点作为聚类中心
(c)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(d)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
(e)重复(c),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(f)重复(d),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
??
优点:
1.算法快速、简单;
2.对大数据集有较高的效率并且是可伸缩性的;
3.时间复杂度近于线性,而且适合挖掘大规模数据集。
缺点:
1.在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。
2.在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响。
3.从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。
4.产生类的大小相差不会很大,对于脏数据很敏感。
K-MEDOIDS〔k-medoids〕算法
与k-means很像,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值,在K-medoids算法中,我们将从当前cluster中选取这样一个点——它到其他所有〔当前cluster中的〕点的距离之和最小——作为中心点。
选取一个对象叫做mediod来代替上面的中心的作用,这样的一个medoid就标识了这个类。?
K-MEDODIS的具体流程如下:?
1〕任意选取K个对象作为medoids〔O1,O2,…Oi…Ok〕。?
2〕将余下的对象分到各个类中去〔根据与medoid最相近的原那么〕;?
3〕对于每个类,顺序选取一个对象,计算用这个对象代替原中心点的方差。选择方差最小的那个对象来代替原中心点。这样K个medoids就改变了。?
4〕重复2、3步直到K个medoids固定下来。?
优点:
不容易受到那些由于误差之类的原因产生的脏数据的影响
缺点:
计算量显然要比K-means要大,一般只适合小数据量
?3〕CLARANS(AClusteringAlgorithmbasedonRandomizedSearch,基于随机选择的聚类算法):
将采样技术〔CLARA[Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最正确的medoids。Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids算法得到相应的〔O1,O2…Oi…Ok〕,然后在这当中选取E最小的一个作为最终的结果]〕和PAM〔找出中心点〕结合起来。CLARA的主要思想是:不考虑整个数据集合,而是选择实际数据的一小局部作为数据的代表。然后用PAM方法从样本中选择中心点。如果样本是以非常随机的方式选取的,那么它应当接近代表原来的数据集。从中选出代表对象〔中心点〕很可能和从整个数据集合中选出的代表对象相似。CLARA抽取数据集合的多个样本,对每个样本应用PAM算法,并返回最好的聚类结果作为输出。?
????????CLARA的有效性主要取决于样本的大小。如果任何一个最正确抽样中心点不在最正确的K个中心之中,那么CLARA将永远不能找到数据集合的最正确聚类。同时这也是为了聚类效率做付出的代价。?
????????CLARANS聚类那么是将CLARA和PAM有效的结合起来,CLARANS在任何时候都不把自身局限于任何样本,CLARANS在搜素的每一步都以某种随机性选取样本。算法步骤如下〔算法步骤摘自百度文库〕:?
1、输入参数numlocal和maxneighbor。numlocal表示抽样的次
文档评论(0)