- 7
- 0
- 约2.45千字
- 约 5页
- 2018-10-27 发布于福建
- 举报
基于改进遗传算法K―means聚类方法
基于改进遗传算法K―means聚类方法
摘要:K-means算法是聚类分析划分方法中的一种常用方法,也是目前在数据分析方法中最有应用前景的方法之一。但K-mean算法对初始聚类中心十分敏感,这对处理学生成绩等数据而言,会导致聚类结果极为不稳定。为此,提出基于改进遗传算法的K-means聚类算法。该算法利用遗传算法解决初始聚类中心,提高聚类结果的稳定性,但存在前期过早收敛和后期收敛过慢的缺点。将改进遗传K-means聚类算法应用于高职高专的学生考试成绩分析中,可以很好地解决传统遗传聚类算法对聚类结果的不稳定性问题,并通过聚类结果对学生考试成绩进行分类评价,利用所获得的数据聚类结果指导教学,从而提高教学质量。
关键词:聚类;K-means 算法;遗传算法
0引言
K-means算法是一种应用非常广泛的聚类分析方法,具有简洁、高效、可伸缩性强等优点,一般用簇内数据对象的均值表示K-means算法每个簇的中心[1]。但传统K-means算法存在诸多不足之处。例如,传统K-means算法对初始聚类中心敏感、算法需要指定参数K的值、输入的不同K值随目标准则函数进行不同次数的迭代、聚类结果波动大、容易陷入局部最优[2]。遗传算法具有很强的鲁棒性和适应性,在解决大空间、多峰值、非线性、全局寻优能力等问题上具有优势,但也存在着前期过早收敛和后期收敛过慢的缺点。
基于改进遗传算法的K-means算法能够有效解决算法对初始值K的依赖性,自动生成类K;同时严格选取初始中心点,加大各中心点之间的距离,避免初始聚类中心会选到一个类上,一定程度上克服了算法陷入局部最优状态[3-6]。
本文基于改进遗传算法进行学生成绩的K-means聚类分析,将学生的考试成绩按照不同科目分成不同的类簇,利用改进遗传算法解决初始聚类中心问题,从而在整体上归纳分析该门课程所具有的特点属性,以及每门课程之间的联系性和差异性,以提高算法效率和准确性。并且,通过选择运算、交叉运算和变异运算来加快算法的收敛性。
1.1传统K-means聚类算法
传统K-means算法随机选择聚类中心,其核心思想为:给出n个数据点,找出k个聚类中心,利用欧氏距离式计算每个数据点与最近聚类中心的距离平方和最小值,依据最近原则把各数据点分到各个簇,利用式(1)计算每簇中数据对象的均值,采用目标准则函数(2)进行迭代运算,直到簇心的移动距离小于某个给定的值。
传统K-means算法描述如下:
输入:n个数据集D,数据聚类个数k。
输出:平方误差准则最小的k个簇的集合。
具体步骤如下:①从数据集D中,输入聚类个数k和包含n个数据对象的数据库;②随机选择k个对象作为初始聚类中心;③根据簇中它们与聚类中心的相似度,将每个对象划分到相似的簇;④重复①-③;⑤更新簇的平均值,根据每个簇中对象的平均值,重新划分相应的对象;⑥计算目标准则函数;⑦直到每个目标准则函数不再发生变化,即方差评价函数开始收敛为止。
传统K-means算法划分方法是根据初始聚类中心来确定数据的初始化[7]。然而k个初始聚类中心的确定对聚类结果影响很大,因为步骤②是随机选择k个对象作为初始聚类中心的。每次迭代使簇中剩余的对象根据与簇中心的相似度重新划分到相似的簇。每次完成迭代运算,就会算出新的聚类中心,以及误差平方和准则函数(2)的值。若再进行一次迭代后,误差平方和准则函数的值不发生改变,说明算法已经收敛。在迭代过程中,函数(2)逐渐减少,直到为最少值为止。图1显示了K-means算法的迭代过程。
传统K-means算法对初始聚类中心很敏感,选取不同的初始聚类中心,会得到不同聚类的结果,而且通常得不到全局最优解。因此,如何找到一组较优的初始中心点,进而获得较好的聚类结果并消除聚类结果的波动性值得研究[8]。
传统K-means算法存在的主要问题如下:
(1)难以估计聚类个数K,一般需预先指定。事先不能确定给定的数据集最适合分为几个类别。有的算法根据类的自动合并和分裂得到较为合理的K值;有的依据方差分析理论,混合统计量来确定最佳K值,并应用模糊划分来验证最佳分类数的正确性;有的则结合全协方差矩阵RPCL算法,逐步删除只包括少量训练数据的类。但是之前的这些改进基本没有具体应用到学生考试成绩系统中。
(2)算法过多依赖于初始值并经常陷入局部极小解。不同的初始值可能造成算法聚类结果的不稳定。K-means算法常采用误差平方和准则函数作为聚类准则函数。聚类准则函数往往存在很多个局部极小值,但只有一个是全局最小。因为每次确定的初始聚类中心都会偏离非凸函数曲面的全局最优解的搜索范围,使用迭代运算,聚类准则函数只能达到局部最小,而不能得到全局最小。因此,许多算法利
您可能关注的文档
最近下载
- 2026年职业资格房地产经纪人房地产经纪专业基础-房地产经纪职业导论参考题库含答案解析(5卷题有答案.docx VIP
- 部编版道德与法治五年级下册复习资料.pdf VIP
- JCT2559-2020 岩棉外墙外保温系统用粘结、抹面砂浆.pdf VIP
- 外研版(三起)(2024)三年级下册英语Unit 1《Animal friends》教案(共4课时).docx VIP
- 《中华民族共同体概论》第十三讲测试题及答案.docx VIP
- 油田油气集输设计规范宣贯材料PPT.ppt VIP
- 广西桂林市2023-2024学年高一下学期期末质量检测物理试卷(含答案).docx VIP
- 中考数学总复习课件14个专题.ppt VIP
- 气田集输设计规范GB50349-2015知识培训.pptx
- 2025年全面从严治党工作报告 .pdf VIP
原创力文档

文档评论(0)