一种分布式的K-means聚类算法.docVIP

下载本文档

80
0
约7.44千字
约 11页
2018-03-16 发布于北京
举报
版权申诉

一种分布式的K-means聚类算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种分布式的K-means聚类算法　　摘要:提出一种适用于大型数据集的分布式聚类算法。该算法以传统的K-means算法为基础进行合理的改进,使之更适用于分布式环境,并从算法的复杂度分析,将该算法与传统的集中式K-means算法及其他分布式算法进行比较。实验表明,该算法在保持了集中式K-means算法所有必要特性的同时,提高了数据处理速度。　　关键词:K-means聚类算法; 分布式环境; 大数据集; 复杂度　　中图分类号:TP393 文献标识码:A 　　文章编号:1004-373X(2010)10-0011-04 　　　　Distributed K-means Clustering Algorithm 　　LIANG Jian-wu, TIAN Ye 　　(School of Information Science and Engineering, Central South University, Changsha 410075, China) 　　Abstract:A distributed clustering algorithmsuit for large data setsis presented. This algorithm is a modified version of the common K-means algorithm with suitable change for making it executable in distributed environment. The algorithm, the traditional serial K-means algorithm and other existing algorithms are compared on the basis of analysing the complexity of the algorithm. Experimental results show that this distributed algorithm maintains all necessary characteristics of the serial K-means algorithm, as well improves the speed of data processing. 　　Keywords:K-means algorithm; distributed environment; large database; complexity 　　　　0 引言　　传统聚类方法的一个前提是数据集中在一个站点,需要一次性载入内存。然而,在许多环境中,局域网、广域网、Internet网将多个数据源连成一个大型分布式异构数据库,用户需要处理大量、多计算节点、不同地理分布的数据,并需要保护数据的隐私和安全[1]。集中式聚类算法不能很好地应用到分布式环境中,即使允许集中执行大量的数据,要么算法崩溃,要么执行效率太低,其长时间的执行,让用户难以接受。数据存储方式的变化对聚类算法的并行性和分布化都提出了要求。分布式聚类是解决此问题的有效方法[2-3]。　　分布式聚类是基于分布的数据源和计算资源对大规模、分布式的数据进行聚类分析的,是聚类分析进?┮徊浇?化的结果,体现了并行计算、分布式计算和通信日益增长的趋势。它的思想是:首先在个体站点数据执行局部聚类分析,然后将部分聚类结果作为产出送给其他站点,并聚集成最后的聚类结果。　　本文基于分布式聚类的思想,以集中式的K-means算法为基础,提出一种分布式的K-means算法。实验结果表明,对于大规模数据库,该算法比集中式的K-means算法具有更高的效率和更低的时间复杂度。　　1 典型K-means算法　　K-means算法是一种基于划分的聚类算法,其任务是把数据集划分成不相交的点集,使每个集中的点尽可能同质[4],即给定N个数据点的集合P{p1,p2,...,pN},聚类划分的目标是找到K个聚类C{c1,c2,…,cK},使每一个点pi被分配到惟一的一个聚类Cj。其中,Ci≠??,i=1,2,…,K;Ci∩Cj=??, i=1,2,…,K, ??j=1,2,…,K且i≠j;??∪Ki=1Ci=S。　　该算法的基本思想[5]是:给定一个包含N个数据对象的数据库以及要生成的簇的数目K,随机选取??K个对象,每个对象的初始代表了1个簇的平均值或中心,然后计算其余各个样本到每个聚类中心的距离,把该样本归到离它最近的那个聚类中心所在的簇,对调整后的新簇使用平均法计算新的聚类中心,如果相邻??2次的聚类中心没有任何变化,说明样本调整结束且聚类平方误差准则函数E收敛,最后所有的数据对