K2means聚类算法的研究.PDFVIP

  • 3
  • 0
  • 约1.64万字
  • 约 4页
  • 2018-12-20 发布于山东
  • 举报
K2means聚类算法的研究.PDF

第 40 卷  第 3 期 太 原 理 工 大 学 学 报 Vol . 40 No . 3 2009 年 5 月      J OU RN AL O F TA IYU AN UN IV ER SIT Y O F T EC HN OL O GY     May 2009   文章编号 (2009) Kmean s 聚类算法的研究 韩晓红 ,胡  彧 (太原理工大学 计算机与软件学院 ,山西 太原 030024) 摘  要 :为解决原始 Kmean s 算法随机选取初始聚类中心对聚类结果的影响较大的不足 ,提 出了改进算法 。采取基于采样选取聚类中心距离的规则 ,进行多次选择决定最终的初始聚类中心 , 使得改进后的算法受初始聚类中心选择的影响达到最小 ; 同时 ,在选取初始聚类中心后 ,对初值进 行数据标准化处理 。将改进的 Kmean s 算法应用于销售行业 ,结果显示 ,改进后的算法比原始的 算法在效率上得到了提高 。 关键词 :数据挖掘 ; Kmean s 算法 ;初始聚类中心 ;聚类分析 中图分类号 : TP30 16    文献标识码 :A   数据挖掘可以从大量有关数据中挖掘出隐含 用一组不 同的随机初始 中心 , 然后选取具有最小 的、先前未知的、对企业决策有潜在价值的知识和规 SSE 的簇集 。该策略虽然简单 ,但是效果可能不好 , 则 。作为数据挖掘技术中的一种重要的方法 , K 这要依赖于数据集和寻找的簇的个数 ,在这种情况 mean s 聚类分析算法应用非常广泛 , 比如用于大量 下 ,算法可能只能得到局部最优 。也有文献采用这 销售数据的划分 。Kmean s 算法对于大量数据集 , 样的方法 :取一个样本 ,并使用层次聚类技术对它聚 ( ) ( 算法的可伸缩性好 , 时间复杂性为 O tk n 其中 , t 类 ,从层次聚类中提取 k 个簇 ,并用这些簇的质心作 是算法的迭代的次数 , k 是类的个数 , n 是数据集中 为初始质心 。该方法通常很有效 ,但仅对样本相对 的数据点数 ,一般 k ≤n , t ≤n) 。但是 ,笔者在应用 较少 ,且 k 相对于样本大小较小的情况 ,具有很大的 中发现 ,该算法存在诸多不足 。比如 ,在应用该算法 局限性 。因此 ,笔者提出了对数据集进行 l 次取样 , 时 ,需要用户随机选取初始聚类中心 ,并给出类的个 然后再对取样的数据集采用 Kmean s 算法进行聚 数 ,而这个信息通常是聚类之后才知道的;其次是该 类 。将改进后的 Kmean s 算法应用于销售行业 ,结 ( ) 算法无法处理有分类属性 cat egorical at t ribut e 的 果表明 ,改进算法较原算法在准确率上有较大提高 , 数据 ,且对孤立点敏感 ,不能发现非球形的类 ,或大 并具有较好的稳定性 。 小差别很大的类 ;其三是经常陷入局部最优解 ,而无 法得到全局最优解 。而选择适当的初始质心是该算 1  聚类分析算法 法运行过程的关键步骤 ,当质心随机初始化时 ,算法 1 . 1  Kmean s 聚类算法思想及基本步骤 的不同运行将产

文档评论(0)

1亿VIP精品文档

相关文档