基于MapReduce的Canopy-Kmeans改进算法-计算机工程与应用.PDF

下载文档 降价啦

14
0
约2.27万字
约 5页
2019-05-25 发布于天津
举报
版权申诉
保障服务

基于MapReduce的Canopy-Kmeans改进算法-计算机工程与应用.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于MapReduce的Canopy-Kmeans改进算法-计算机工程与应用

22 2012 ，48 （27 ） Computer Engineering and Applications 计算机工程与应用基于MapReduce 的Canopy-Kmeans 改进算法毛典辉 MAO Dianhui 北京工商大学计算机与信息工程学院，北京 100048 School of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048, China MAO Dianhui. Improved Canopy-Kmeans algorithm based on MapReduce. Computer Engineering and Ap- plications, 2012, 48 （27 ）：22-26. Abstract ：In order to solve the problem that how to void random Canopy selection of Canopy-Kmeans algorithm, this paper introduces an improved algorithm based on the minimum and maximum principle and realizes processing massive data based on MapReduce framework. Meanwhile, the algorithm is carried out in massive Internet news ag- gregation. The experiments show that the strategy of Canopy selection based on the minimum and maximum princi- ple has higher classification accuracy and noise immunity compared to random strategy. Key words ：Canopy-Kmeans; MapReduce; distributed aggregation 摘要：针对分布式Canopy-Kmeans 算法中Canopy 选取的随机性问题，采用“最小最大原则”对该算法进行了改进，避免了Cannopy 选取的盲目性；采用MapReduce 并行计算框架对算法进行了并行扩展，使之能够充分利用集群的计算和存储能力，从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景，对改进后的算法进行了实验分析。实验结果表明：该方法较随机挑选Canopy 策略在分类准确率以及抗噪能力上都明显提高，而且在处理海量数据时表现出较大的性能优势。关键词：Canopy-Kmeans 算法；MapReduce；分布式聚类文章编号：1002-8331（2012 ）27-0022-05 文献标识码：A 中图分类号：TP301 1 引言算效率较高等优点，因此成为应用最为广泛的分布聚类是按照“物以类聚”的思想将数据集合分成式聚类算法。Canopy-Kmeans 是一种对K-means 优若干类或簇，使得每个簇中的数据最大程度得相似，化的聚类算法，引入Canopy 后，每次只比较落在同一 [1] 区域内对象与中心点之间的距离，通过减少比较次属于一种无监督的学习过程。当前绝大多数聚类算法适用于集中式数据的处理，算法效率受限于单数大大降低整个聚类的运行时间，提高了算法的计 [7] 机处理能力，面对日益增长的分布式存储的海量信算效率。算法在实际应用中需预先设置聚类的初息，现有的聚类算法均存在着伸缩性与扩展性较差始种子点（初始Canopy 中心点）、聚类个数k （Canopy [2] 个数）、Canopy 区域大小等初始值，初始值选取的好等问题，因此由多台计算机共同参与计算的分布式聚类算法成为当前聚类算法的