- 6
- 0
- 约小于1千字
- 约 2页
- 2024-03-07 发布于上海
- 举报
数据挖掘中几种划分聚类算法的比较及改进的中期报告
作为一个数据挖掘领域的常见任务,聚类在各类数据中均扮演着重要的角色。为了划分数据,对聚类算法的研究也逐渐深入。在本次中期报告中,我们将比较几种常见的划分聚类算法,以及针对其缺陷进行的改进。
1.K-means算法
K-means算法是一种常见的划分聚类算法,其具体流程为:首先随机初始化K个聚类中心,接着将每个样本点分配到与其最近的聚类中心;然后重新计算每个聚类的质心,重复上述两个操作直到收敛。K-means算法的缺陷在于其对初始化十分敏感,同样的数据可能由于初始聚类中心的不同导致不同的结果。
2.K-medoids算法
针对K-means算法的缺陷,K-medoids算法采用了聚类中心点的实际样本点作为聚类中心(即medoids),从而防止了选取聚类中心点带来的不稳定性。具体流程为:随机选取K个样本点作为medoids,迭代地将剩余样本点分配到与其最近的medoids,然后尝试将medoids替换成其它样本点,如果替换后的聚类中心更优,则进行替换。但K-medoids算法仍然存在两个最大的问题:首先,该算法只能在小数据集上使用;其次,替换操作仅尝试了一个点,但是替换策略的每次选择都会影响后续的运算。
3.BisectingK-means算法
BisectingK-means算法是一种基于递归的划分聚类算法。该算法首先将所有
原创力文档

文档评论(0)