基于Spark并行的密度峰值聚类算法.PDF

基于Spark并行的密度峰值聚类算法.PDF

———————————————————————————————————————————————— 基于Spark 并行的密度峰值聚类算法 作者 孙伟鹏,吴锡生,孟斌 机构 江南大学 物联网工程学院;中船重工集团第七〇二研究所 软件工程中心 DOI 10.3969/j.issn.1001-3695.2018.04.0377 基金项目 国家自然科学基金资助项目 预排期卷 《计算机应用研究》 2019 年第36 卷第12 期 摘要 针对 FSDP 聚类算法在计算数据对象的局部密度与最小距离时,由于需要遍历整个数据集而 导致算法的整体时间复杂度较高的问题,提出了一种基于 Spark 的并行 FSDP 聚类算法 SFSDP。首先,算法通过空间网格划分将待聚类数据集划分成多个数据量相对均衡的数据分 区;然后,利用改进的FSDP 聚类算法并行地对各个分区内的数据执行聚类分析;最后,通 过将分区间的局部簇集合并,生成全局簇集。实验结果表明,SFSDP 与FSDP 算法相比能够 有

文档评论(0)

1亿VIP精品文档

相关文档