- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop的并行聚类算法的研究.doc
基于Hadoop的并行聚类算法的研究
摘 要:本文介绍了Hadoop平台下MapReduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行“粗”聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用MapReduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。
关键词:Hadoop;MapReduce;聚类;Canopy-Kmeans算法
中图分类号:TP391.1
Hadoop[1]是一种开源式的分布式平台,由它的分布式文件系统(HDFS)和MapReduce编程模型组成,这是Hadoop的核心。Kmeans算法[2]是被广泛使用的经典的聚类算法之一,思想简单,收敛速度快,而且易于实现,但是要先确立初始聚类中心,容易受主观因素的影响而造成聚类结果的局部最优。为解决该问题,本文引入Canopy对算法初始中心点的选取进行优化处理。
1 MapReduce并行编程模型
MapReduce是现在各种云计算平台的基础模型。此模型的核心是Map和Reduce函数,他们都可以高度并行运行。Map函数可以处理多组数据,把一对Key\Value对映射成新的Key\Value对,Reduce的输入数据为Map函数的输出数据。由并发Reduce函数来确保所有映射Key\Value对中的每组都有相等的Key键值[3]。MapReduce的运行机制是将大数据集分解成为许多小数据集splits,每个数据集分别由集群中的一个节点执行Map过程并生成中间结果。接着这些中间结果被大批的并行执行的 Reduce过程做相应的处理,从而产生最终结果,输出给用户[4]。
2 Canopy-Kmeans算法
2.1 算法的思想
Canopy-Kmeans算法采用Canopy进行初始聚类中心点的优化。数据子集分别分布在集群中的各个不同的站点。在Map阶段引用Canopy算法迅速地产生多个局部Canopy中心,各站点传来的局部Canopy中心在Reduce阶段被再次利用 Canopy算法得到全局的canopy中心集合。与Map阶段不同的是可对阈值t1、t2(t1t2)进行重置。意思是Reduce阶段的阈值可与Map阶段的不同,以便能得到下步Kmeans所需的k个初始聚类中心。
2.2 基于MapReduce的Canopy-Kmeans算法
在基于Hadoop的并行Kmeans算法的基础上,本文使用Canopy算法对Kmeans 算法进行优化。Canopy-Kmeans算法包括两部分:Canopy生成中心点算法和Kmeans算法。Canopy中心点的生成过程包括Map和Reduce函数。算法实现需四个阶段,分别用四个Job实现。如图1所示。Job1生成k个canopy中心。Job2借助Job1阶段的k个canopy中心点来生成k个相互重叠的canopy。Job3对处于同一canopy内的数据集进行K-means聚类。通过多次的迭代,生成稳定的Kmeans聚类中心。最后,Job4使用稳定的Kmeans聚类中心点开始聚类。直到输出最终结果。
图1 Canopy-Kmeans 实现流程
3 算法时间复杂度分析
传统的Kmeans算法的时间复杂度为O(nck)。其中n为数据对象数量,c为迭代次数,k为类数量。该文引入Canopy聚类,产生k个canopy,每一个数据对象有可能同时属于q(q≤k)个canopy。当集群数量为p时,可知算法的时间复杂度为O(ncq2k/p)。可以看出该算法的时间复杂度与传统的Kmeans时间复杂度相比明显降低了。
4 实验与结果分析
4.1 数据集和实验环境
实验数据是从UCI机器学习库中选取的部分数据集,如表1所示。这些标准数据集用以准确度量本文算法的聚类效果。
表1 实验数据集
数据集 样本数 属性数 类别数
Synthetic_Control 600 60 6
Segmentation 2310 18 7
Waveform-40 5000 40 3
Hadoop为开发平台,运用MapReduce编程框架完成实验。本实验是在5台VMWare平台下的虚拟机搭建成的Hadoop集群环境中完成,实验由5台PC机构成,其中一台作为主节点,剩余四台作为从节点。
4.2 实验结果及分析
将本文算法与MapReduce框架下的Kmeans聚类(算法a)、Weka环境下的串行Kmeans聚类(算法b)做比较。实验结果如表2所示。实验结果表明,算法a、b的正确率和误差平方和相对
文档评论(0)