K2means聚类算法的研究.PDFVIP

下载本文档

3
0
约1.64万字
约 4页
2018-12-20 发布于山东
举报

K2means聚类算法的研究.PDF

第 40 卷　第 3 期太原理工大学学报 Vol . 40 No . 3 2009 年 5 月　　　 J OU RN AL O F TA IYU AN UN IV ER SIT Y O F T EC HN OL O GY 　　 May 2009 　　文章编号 (2009) Kmean s 聚类算法的研究韩晓红 ,胡　彧 (太原理工大学计算机与软件学院 ,山西太原 030024) 摘　要 :为解决原始 Kmean s 算法随机选取初始聚类中心对聚类结果的影响较大的不足 ,提出了改进算法。采取基于采样选取聚类中心距离的规则 ,进行多次选择决定最终的初始聚类中心 , 使得改进后的算法受初始聚类中心选择的影响达到最小 ; 同时 ,在选取初始聚类中心后 ,对初值进行数据标准化处理。将改进的 Kmean s 算法应用于销售行业 ,结果显示 ,改进后的算法比原始的算法在效率上得到了提高。关键词 :数据挖掘 ; Kmean s 算法 ;初始聚类中心 ;聚类分析中图分类号 : TP30 16 　　　文献标识码 :A 　　数据挖掘可以从大量有关数据中挖掘出隐含用一组不同的随机初始中心 , 然后选取具有最小的、先前未知的、对企业决策有潜在价值的知识和规 SSE 的簇集。该策略虽然简单 ,但是效果可能不好 , 则。作为数据挖掘技术中的一种重要的方法 , K 这要依赖于数据集和寻找的簇的个数 ,在这种情况 mean s 聚类分析算法应用非常广泛 , 比如用于大量下 ,算法可能只能得到局部最优。也有文献采用这销售数据的划分。Kmean s 算法对于大量数据集 , 样的方法 :取一个样本 ,并使用层次聚类技术对它聚 ( ) ( 算法的可伸缩性好 , 时间复杂性为 O tk n 其中 , t 类 ,从层次聚类中提取 k 个簇 ,并用这些簇的质心作是算法的迭代的次数 , k 是类的个数 , n 是数据集中为初始质心。该方法通常很有效 ,但仅对样本相对的数据点数 ,一般 k ≤n , t ≤n) 。但是 ,笔者在应用较少 ,且 k 相对于样本大小较小的情况 ,具有很大的中发现 ,该算法存在诸多不足。比如 ,在应用该算法局限性。因此 ,笔者提出了对数据集进行 l 次取样 , 时 ,需要用户随机选取初始聚类中心 ,并给出类的个然后再对取样的数据集采用 Kmean s 算法进行聚数 ,而这个信息通常是聚类之后才知道的;其次是该类。将改进后的 Kmean s 算法应用于销售行业 ,结 ( ) 算法无法处理有分类属性 cat egorical at t ribut e 的果表明 ,改进算法较原算法在准确率上有较大提高 , 数据 ,且对孤立点敏感 ,不能发现非球形的类 ,或大并具有较好的稳定性。小差别很大的类 ;其三是经常陷入局部最优解 ,而无法得到全局最优解。而选择适当的初始质心是该算 1 　聚类分析算法法运行过程的关键步骤 ,当质心随机初始化时 ,算法 1 . 1 　Kmean s 聚类算法思想及基本步骤的不同运行将产

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

K2means聚类算法的研究.PDFVIP