CURE聚类算法的实现 - Read.DOC

下载文档

52
0
约 7页
2017-08-05 发布于天津
举报
版权申诉
保障服务

CURE聚类算法的实现 - Read.DOC

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

CURE聚类算法的实现 - Read

CURE聚类算法的实现任务背景聚类（clustering）就是将数据对象分组成为多个类或簇（cluster），在同一簇中的对象之间具有较高的相似度，而不同的簇中对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域，包括数据挖掘，统计学，生物学，以及机器学习。 ??????作为统计学的一个分支，聚类分析已经被广泛的研究了许多年，主要集中在基于距离的聚类分析。基于k-means（k-平均值），k-medoids（k-中心点）和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中，例如S-Plus，SPSS，以及SAS。 CURE（Clustering Using Representatives）是一种针对大型数据库的高效的聚类算法。基于划分的传统的聚类算法得到的是球状的，相等大小的聚类，对异常数据比较脆弱。CURE采用了用多个点代表一个簇的方法，可以较好的处理以上问题。并且在处理大数据量的时候采用了随机取样，分区的方法，来提高其效率，使得其可以高效的处理大量数据。基本目标聚类算法CURE的算法实现。对图形进行聚类，在时间，结果方面对其性能进行评估。算法流程 CURE的算法在开始时，每个点都是一个簇，然后将距离最近的簇结合，一直到簇的个数为要求的K。它是一种分裂的层次聚类。算法分为以下6步： 1）从源数据对象中抽取一个随机样本S。 2）将样本S分割为一组划分。 3）对划分局部的聚类。 4）通过随机取样提出孤立点。如果一个簇增长得太慢，就去掉它。 5）对局部的簇进行聚类。 6）用相应的簇标签标记数据。算法设计 (1)基本聚类算法 procedure cluster(S, k)????????/*将数据集S聚类成为k个簇*/ begin 1.???T := build_kd_tree(S)????/*对应数据集S建立一个K-DTree T*/ 2.???Q := build_heap(S)???????/*对应数据集S建立一个堆Q*/ 3.???while size(Q) k do {???/*聚类直至簇的个数为k */ 4.??????????u := extract_min(Q)??????/*找到最近的两个簇u，v */ 5.??????????v := u.cloest 6.??????????delete(Q, v) 7.??????????w := merge(u, v)??????????/*将u，v合并为簇w */ 8.??????????delete_rep(T, u);delete_rep(T, v);insert_rep(T, w) 9.??????????w.cloest := x??????????????/* x is an arbitrary cluster in Q*/ 10.?????????for each x∈Q do{/*调节因合并带来的T和Q的变化*/ 11.????????????????if (dist(w,x) dist(w,w.cloest)) 12.???????????????????????w.cloest := x 13.????????????????if x.cloest is either u or v { 14.???????????????????????if dist(x, x.cloest) dist(x.w) 15.???????????????????????????x.cloest := cloest_cluster(T, x, dist(x,w)) 16.???????????????????????else 17.??????????????????????????????x.cloest := w 18.???????????????????????relocate(Q, x) 19.????????????????} 20.????????????????else if dist(x, x.cloest) dist(x, w) { 21.???????????????????????x.cloest := w 22.???????????????????????relocate(Q, x) 23.????????????????} 24.?????????} 25.?????????insert(Q, w) 26.??} end 此程序段用到的数据结构有Heap，和K-DTree。为了合并距离最短的两个聚类，需要构建一个K-DTree来找到空间中的一聚类最近的一个聚类，之后把K-DTree中的聚类按照其与最近的聚类的距离进行排序（用的是堆排序），找到最近的两个的聚类，将它们