基于Spark平台高效亲传播聚类算法研究.pdfVIP

下载本文档

0
0
约2.89万字
约 6页
2026-02-13 发布于四川
举报

基于Spark平台高效亲传播聚类算法研究.pdf

基于Spark平台的亲和聚类算法

计算机学院工业大学，广州510006，

786915@q.com

117q

：随着数据的性增长，处理大规模复杂数然后基于相似性矩阵迭代计算责任值和可用性值来

据诸多。许多聚类算法被提出，例如亲和调整代表。此外，AP聚类算法是一种针对大数据集

（AP）聚类算法。AP算法以数据点对之间的相的快速高效的聚类算法。

似度作为输入度量。与现有的聚类算法相比，AP是

一种快速高效的大型数据集聚类算法。然而，随着

数据规模的进一步性增长，AP算法的时间效率Spark[4]中的RDD[3]允许开发人员基于内存进行

需求。因此，本文提出了基于Spark平台的大规模计算，并具备容错能力。为了实现海量数据

AP聚类算法（Spark‑AP）。首先，根据策略将数据的聚类并提高处理效率，许多学者对基于Spark的

集划分为多个弹性分布式数据集（RDD），并选择聚类算法进行了大量研究，以提高AP算法的时间效

每个RDD的代表点。然后将这些代表点合并，并用率[5‑7]。

于下一轮AP聚类算法，最终在收敛后形成一组高质

量的代表点。实验结果表明，Spark‑AP在处理规模本文提出了基于Spark平台的AP聚类算法（

和处理时间上均表现出色。Spark‑AP）。通过在Spark平台上进行并行聚类，

提高了聚类效率。实验结果表明，与原始聚类算法

相比，Spark‑AP的效率显著提升。

：亲和力；弹性分布式数据集；Spark；

大规模数据集2基于亲和力的聚类算法

1引言

聚类算法在数据挖掘、模式分类等众多领域得到了Frey和Dueck首次在《科学》上提出了AP

广泛应用。随着和网络技术的快速发展，聚类算法。AP聚类算法将数据点对之间的相似性作

数据量日益增大，数据类型也日趋复杂，对聚类效为输入度量。与现有的聚类算法相比，AP聚类算法

率和效果的要求也越来越高。为了提高大规模复杂是一种快速且高效的大型数据集聚类算法。AP聚类

数据的聚类效率和效果，分布式聚类算法[1]成为近算法将数据集中所有数据点都视为可能的代表点，

年来研究的热点。然后基于相似性矩阵迭代计算责任值和可用性值以

调整代表点。AP聚类算法有三个指标，即相似性、

责任值和可用性，定义如下：

传统聚类算法选择代表的方法是首先随机选择代表，

然后通过迭代计算不断调整代表，直到代表不再明

显变化或迭代完成。初始代表的选择与聚类结果相12nX{x,x,...,x}

相似性：假设是一个包含样本的数据集，该数据集

关。AP聚类算法[2]将数据集中的所有数据点都视为

的相似性为：

可能的代表，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于Spark平台高效亲传播聚类算法研究.pdfVIP