基于Hadoop多核果蝇―Kmeans聚类算法.docVIP

下载本文档

12
0
约5.79千字
约 11页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop多核果蝇―Kmeans聚类算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop多核果蝇―Kmeans聚类算法

基于Hadoop多核果蝇―Kmeans聚类算法　　摘要：针对Kmeans算法对海量数据聚类效率过低的不足，基于Hadoop的分布式架构思想，提出一种多核果蝇-Kmeans聚类算法（MKFOA-Kmeans）。以每次迭代后果蝇位置为聚类中心进行一次Kmeans聚类算法，综合了果蝇优化算法强全局搜索能力以及Kmeans算法强局部搜索能力的优点。MapReduce框架简化了算法执行过程，避免了由于存储空间不足而造成的算法失效。在由普通硬件搭建的Hadoop平台下进行仿真实验，表明MKFOA-Kmeans算法对大数据的聚类准确率高，并且随着数据量的增加，聚类效率优势也愈加明显。　　关键词：大型数据聚类；Hadoop；果蝇算法；多核；Kmeans算法　　DOI：10.11907/rjdk.172611 　　中图分类号：TP312 　　文献标识码：A 文章编号：1672-7800（2018）004-0051-03 　　Abstract：In order to overcome the disadvantage of low efficiency of massive data clustering of the Kmeans algorithm， a multi-kernel FOA-Kmeans clustering algorithm based on Hadoop is proposed. Using the positions of artificial flys as the clustering center， the new algorithm combines the strong global searching ability of the fly optimization algorithm and the strong local searching ability of the Kmeans algorithm. The MapReduce programming framework simplifies the execution of the algorithm and avoids the failure of the algorithm due to insufficient storage space of computer. Simulations on Hadoop platform constructed by common computers show that MKFOA-Kmeans algorithm has high accuracy for massive data clustering， and the clustering efficiency becomes more obvious with the increase of data. 　　Key Words：massive data clustering； Hadoop； fly optimization algorithm； multiple kernels； Kmeans Algorithm 　　0 引言　　随着移动互联网等信息科技的快速发展，数据量级呈爆炸式增长，如何挖掘并利用有效数据成为各界关注的热点。聚类是数据挖掘中一个重要的方向，通过无监督学习确定合适的聚类中心，使其类内间距尽量小而类间间距尽量大。Kmeans算法因原理简单、局部搜索能力强等优点而成为经典的聚类算法，但其全局搜索能力较差，容易陷入局部最优值，尤其在对大型数据聚类时效率过低，算法滞慢劣势明显。很多学者对Kmeans算法进行了改进，文献[2]在粒子群算法中引入小概率变异事件，以有效克服Kmeans算法后期收敛速度慢的缺陷。文献[3]将蚁群算法的搜索方向性与Kmeans算法结合，成功应用在系统协同分类中，但搜索速度较慢。文献[4]提出一种基于人工蜂群的Kmeans算法，提高了全局搜索能力，但在处理大型数据时效率较低。近年来，针对海量数据的Kmeans算法改进研究越来越多，文献[5]提出了基于Hadoop平台的Canopy和Kmeans混合算法，在处理大型新闻数据时取得了较好的效果。文献[6]提出一种基于改进蜂群的Kmeans算法，在Hadoop平台下运行具有良好的可扩展性。　　果蝇算法是一种基于生物学仿生的新型智能优化算法，具有参数少、收敛快、全局搜索能力强等优点，目前已经成功应用在函数优化、纺丝性能预测[7]、作业车间调度[8]、变压器故障诊断[9]等领域。本文采用自适应步长改进果蝇算法与Kmeans算法结合，根据MapReduce编程模型设计适合在Hadoop平台运行的算法流程，综合了果蝇算法的强全局搜索能力，Kme