- 0
- 0
- 约2.89万字
- 约 6页
- 2026-02-13 发布于四川
- 举报
基于Spark平台的亲和聚类算法
计算机学院工业大学,广州510006,
786915@q.com
117q
:随着数据的性增长,处理大规模复杂数然后基于相似性矩阵迭代计算责任值和可用性值来
据诸多。许多聚类算法被提出,例如亲和调整代表。此外,AP聚类算法是一种针对大数据集
(AP)聚类算法。AP算法以数据点对之间的相的快速高效的聚类算法。
似度作为输入度量。与现有的聚类算法相比,AP是
一种快速高效的大型数据集聚类算法。然而,随着
数据规模的进一步性增长,AP算法的时间效率Spark[4]中的RDD[3]允许开发人员基于内存进行
需求。因此,本文提出了基于Spark平台的大规模计算,并具备容错能力。为了实现海量数据
AP聚类算法(Spark‑AP)。首先,根据策略将数据的聚类并提高处理效率,许多学者对基于Spark的
集划分为多个弹性分布式数据集(RDD),并选择聚类算法进行了大量研究,以提高AP算法的时间效
每个RDD的代表点。然后将这些代表点合并,并用率[5‑7]。
于下一轮AP聚类算法,最终在收敛后形成一组高质
量的代表点。实验结果表明,Spark‑AP在处理规模本文提出了基于Spark平台的AP聚类算法(
和处理时间上均表现出色。Spark‑AP)。通过在Spark平台上进行并行聚类,
提高了聚类效率。实验结果表明,与原始聚类算法
相比,Spark‑AP的效率显著提升。
:亲和力;弹性分布式数据集;Spark;
大规模数据集2基于亲和力的聚类算法
1引言
聚类算法在数据挖掘、模式分类等众多领域得到了Frey和Dueck首次在《科学》上提出了AP
广泛应用。随着和网络技术的快速发展,聚类算法。AP聚类算法将数据点对之间的相似性作
数据量日益增大,数据类型也日趋复杂,对聚类效为输入度量。与现有的聚类算法相比,AP聚类算法
率和效果的要求也越来越高。为了提高大规模复杂是一种快速且高效的大型数据集聚类算法。AP聚类
数据的聚类效率和效果,分布式聚类算法[1]成为近算法将数据集中所有数据点都视为可能的代表点,
年来研究的热点。然后基于相似性矩阵迭代计算责任值和可用性值以
调整代表点。AP聚类算法有三个指标,即相似性、
责任值和可用性,定义如下:
传统聚类算法选择代表的方法是首先随机选择代表,
然后通过迭代计算不断调整代表,直到代表不再明
显变化或迭代完成。初始代表的选择与聚类结果相12nX{x,x,...,x}
相似性:假设是一个包含样本的数据集,该数据集
关。AP聚类算法[2]将数据集中的所有数据点都视为
的相似性为:
n
可能的代表,
您可能关注的文档
最近下载
- 精神科暴力行为预防及处置.ppt VIP
- 数列型不等式的放缩方法.docx VIP
- “五个带头”方面存在问题原因剖析、下一步整改措施对照检查材料(六篇)2026年.docx VIP
- 深度解析(2026)《SJT 11140-2022 铝电解电容器用电极箔》.pptx VIP
- RBT 107-2024 能源管理体系 公共建筑管理组织认证要求.pdf VIP
- T_SGZX003—2024固态铝电解电容器用电极箔.pdf VIP
- 2026-2030中国商用飞机铝锂合金行业市场发展趋势与前景展望战略分析研究报告.docx
- 2024年常州信息职业技术学院单招职业技能测试题库(历年真题).docx VIP
- 电气土建工程图例符号.doc VIP
- 新版食品生产许可管理办法.pptx VIP
原创力文档

文档评论(0)