基于SparkKmeans并行算法研究.docVIP

下载本文档

20
0
约5.86千字
约 11页
2018-08-28 发布于福建
举报
版权申诉

基于SparkKmeans并行算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于SparkKmeans并行算法研究

基于SparkKmeans并行算法研究　　摘要：随着处理数据规模的迅速增长，对算法的执行速度要求越来越高。Kmean是聚类分析分析中的一个经典算法，虽然其已在Hadoop平台上有并行化实现，但Hadoop的计算模型并不适合像Kmeans这种迭代计算。Spark被看作下一代大数据并行处理框架，非常适合进行迭代计算。该文论述了Kmeans算法在Spark平台上的并行原理，给出了实现方法，并通过实验证明该实现能够快速完成在大数据集上的聚类。　　关键词：Kmeans；并行化；Spark；大数据；聚类　　中图分类号：TP312 文献标识码：A 文章编号：1009-3044（2016）04-0074-02 　　Research of Parallelized Kmeans Algorithm on Spark 　　CAI Hong-shan 　　（Anhui University of Science and Technology， School of Computer Science and Engineering，Huainan 232001， China）　　Abstract： With the mount of data to deal with growing rapidly， people’s requirement on the execution speed of algorithms is higher and higher. Kmeans algorithm， which is a classical one in cluster analysis， has been implemented on Hadoop platform； but programming paradigm implemented by Hadoop is not good at addressing iterative computation such Kmeans. Spark ， which is regarded as the next-generation data processing engine， excels at iterative computation. This paper discusses how Kmeans algorithm is executed parallel on spark and shows the implementation. The result turns out that the method work fine on large data set. 　　Key words： Kmeans algorithm； parallelization； big data； spark 　　聚类是一种无监督学习的过程[1]，它是在没有给定分类的情况下，通过计算数据之间预先指定的属性上的相识性，将数据划分为相交或不相交的簇。聚类分析作为数据挖掘领域中一种工具，已经在许多领域广泛应用[2]，包括生物学，信息检索。当前，现实和虚拟世界的数据产生速度越来越迅猛，聚类计算任务所面临的数据规模越来越大，k-means算法是一种常用而有效的聚类算法，但其串行计算方法的时间复杂度比较高[3]，处理能力存在局限性。因此如何实现其并行化以处理海量数据是一个很有价值的研究方向。　　Hadoop是目前广泛使用的并行计算平台[4]，但Hadoop的MapReduce比不适合迭代计算。在Hadoop的计算模型中[5]，一个任务只有map和reduce两个阶段，复杂的计算需要多个的Job完成，Job之间的依赖关系是由开发者自己管理的；并且map阶段的中间结果要写到本地磁盘，这对需要多次迭代才能完成的计算显然是不合适的。而迭代计算在数据处理中是很常见的，尤其在机器学习、数据挖掘、信息检索等领域[6]，很多算法都是运用多次迭代完成的。作为新一代并行处理框架，Spark弥补了Hadoop在迭代计算方面的不足，已成为发展最快的大数据处理平台之一。本文了论述使用Kmeans算法在Spark平台的并行实现原理并给出了其实现。　　1 k-mean聚类算法原理　　k-mean算法是一种应用范围非常广泛的一种聚类方法，它是一种典型的划分聚类方法。它有一个基本假设：对于每一个类簇（cluster），我们可以选出一个中心点，使得该类簇中的所有的点到该中心点的距离小于到其他类簇的中心的距离。k-means 算法的基本思想是：先随机或者按照某种启发式方法选择k个质心（cluster centroids）作为起始类簇，把它们做k个类的聚类中心。然后，对数据集中的每个对象根据其与各个类簇中心的距离，将它划分与其最近的簇