数据挖掘中几种划分聚类算法的比较及改进的中期报告.docxVIP

  • 6
  • 0
  • 约小于1千字
  • 约 2页
  • 2024-03-07 发布于上海
  • 举报

数据挖掘中几种划分聚类算法的比较及改进的中期报告.docx

数据挖掘中几种划分聚类算法的比较及改进的中期报告

作为一个数据挖掘领域的常见任务,聚类在各类数据中均扮演着重要的角色。为了划分数据,对聚类算法的研究也逐渐深入。在本次中期报告中,我们将比较几种常见的划分聚类算法,以及针对其缺陷进行的改进。

1.K-means算法

K-means算法是一种常见的划分聚类算法,其具体流程为:首先随机初始化K个聚类中心,接着将每个样本点分配到与其最近的聚类中心;然后重新计算每个聚类的质心,重复上述两个操作直到收敛。K-means算法的缺陷在于其对初始化十分敏感,同样的数据可能由于初始聚类中心的不同导致不同的结果。

2.K-medoids算法

针对K-means算法的缺陷,K-medoids算法采用了聚类中心点的实际样本点作为聚类中心(即medoids),从而防止了选取聚类中心点带来的不稳定性。具体流程为:随机选取K个样本点作为medoids,迭代地将剩余样本点分配到与其最近的medoids,然后尝试将medoids替换成其它样本点,如果替换后的聚类中心更优,则进行替换。但K-medoids算法仍然存在两个最大的问题:首先,该算法只能在小数据集上使用;其次,替换操作仅尝试了一个点,但是替换策略的每次选择都会影响后续的运算。

3.BisectingK-means算法

BisectingK-means算法是一种基于递归的划分聚类算法。该算法首先将所有

文档评论(0)

1亿VIP精品文档

相关文档