基于Hadoop的并行聚类算法的研究.docVIP

下载本文档

2
0
约3.02千字
约 5页
2016-09-08 发布于北京
举报
版权申诉

基于Hadoop的并行聚类算法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop的并行聚类算法的研究.doc

基于Hadoop的并行聚类算法的研究　　摘要：本文介绍了Hadoop平台下MapReduce的并行编程框架，分析了传统Kmeans聚类算法的优缺点，提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行“粗”聚类，以优化Kmeans聚类算法初始聚类中心的选取。选用MapReduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。　　关键词：Hadoop；MapReduce；聚类；Canopy-Kmeans算法　　中图分类号：TP391.1 　　Hadoop[1]是一种开源式的分布式平台，由它的分布式文件系统（HDFS）和MapReduce编程模型组成，这是Hadoop的核心。Kmeans算法[2]是被广泛使用的经典的聚类算法之一，思想简单，收敛速度快，而且易于实现，但是要先确立初始聚类中心，容易受主观因素的影响而造成聚类结果的局部最优。为解决该问题，本文引入Canopy对算法初始中心点的选取进行优化处理。　　1 MapReduce并行编程模型　　MapReduce是现在各种云计算平台的基础模型。此模型的核心是Map和Reduce函数，他们都可以高度并行运行。Map函数可以处理多组数据，把一对Key＼Value对映射成新的Key＼Value对，Reduce的输入数据为Map函数的输出数据。由并发Reduce函数来确保所有映射Key＼Value对中的每组都有相等的Key键值[3]。MapReduce的运行机制是将大数据集分解成为许多小数据集splits，每个数据集分别由集群中的一个节点执行Map过程并生成中间结果。接着这些中间结果被大批的并行执行的 Reduce过程做相应的处理，从而产生最终结果，输出给用户[4]。　　2 Canopy-Kmeans算法　　2.1 算法的思想　　Canopy-Kmeans算法采用Canopy进行初始聚类中心点的优化。数据子集分别分布在集群中的各个不同的站点。在Map阶段引用Canopy算法迅速地产生多个局部Canopy中心，各站点传来的局部Canopy中心在Reduce阶段被再次利用 Canopy算法得到全局的canopy中心集合。与Map阶段不同的是可对阈值t1、t2（t1t2）进行重置。意思是Reduce阶段的阈值可与Map阶段的不同，以便能得到下步Kmeans所需的k个初始聚类中心。　　2.2 基于MapReduce的Canopy-Kmeans算法　　在基于Hadoop的并行Kmeans算法的基础上，本文使用Canopy算法对Kmeans 算法进行优化。Canopy-Kmeans算法包括两部分：Canopy生成中心点算法和Kmeans算法。Canopy中心点的生成过程包括Map和Reduce函数。算法实现需四个阶段，分别用四个Job实现。如图1所示。Job1生成k个canopy中心。Job2借助Job1阶段的k个canopy中心点来生成k个相互重叠的canopy。Job3对处于同一canopy内的数据集进行K-means聚类。通过多次的迭代，生成稳定的Kmeans聚类中心。最后，Job4使用稳定的Kmeans聚类中心点开始聚类。直到输出最终结果。　　图1 Canopy-Kmeans 实现流程　　3 算法时间复杂度分析　　传统的Kmeans算法的时间复杂度为O（nck）。其中n为数据对象数量，c为迭代次数，k为类数量。该文引入Canopy聚类，产生k个canopy，每一个数据对象有可能同时属于q（q≤k）个canopy。当集群数量为p时，可知算法的时间复杂度为O（ncq2k/p）。可以看出该算法的时间复杂度与传统的Kmeans时间复杂度相比明显降低了。　　4 实验与结果分析　　4.1 数据集和实验环境　　实验数据是从UCI机器学习库中选取的部分数据集，如表1所示。这些标准数据集用以准确度量本文算法的聚类效果。　　表1 实验数据集　　数据集样本数属性数类别数　　Synthetic_Control 600 60 6 　　Segmentation 2310 18 7 　　Waveform-40 5000 40 3 　　Hadoop为开发平台，运用MapReduce编程框架完成实验。本实验是在5台VMWare平台下的虚拟机搭建成的Hadoop集群环境中完成，实验由5台PC机构成，其中一台作为主节点，剩余四台作为从节点。　　4.2 实验结果及分析　　将本文算法与MapReduce框架下的Kmeans聚类（算法a）、Weka环境下的串行Kmeans聚类（算法b）做比较。实验结果如表2所示。实验结果表明，算法a、b的正确率和误差平方和相对