K-均值算法聚类数的确定.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
K-均值算法聚类数的确定.pdf

VA 一嚣 高【新技术产业发展】 K一均值算法聚类数 的确定 刘 丹 高世 臣 (中围地质大学 (北京)信息工程学院 北京 100083) 摘 要: K—means算法是一种基于划分的聚类算法。它的执行时间主要依赖于k值和初始点的选取,但是在实际问题中缺少对K取值的先验信息和有效选取初 始点的方法。提出五种有效的确定K值的方法。这些方法能够根据数据集本身的特性快速 自动选取初始中心并给出初始分类个数。 关键词: 聚类分析 ;K一均值算法:初始分类 中圈分类号:TN911.7 文献标识码 :A 文章编号 :1671--7597 (2011)0320038--02 0引曹 考察。用此方法按样本密度由大到小的顺序考察下去,在每次考察中若发 聚类分析:近几年来,聚类作为数据挖掘的主要方法之一,越来越引 现所考察的点与所有 已选定的凝聚点问的距离都大于d2,便将此点定为新 起人们的关注。聚类的输入是一组未分类的数据 ,而且事先也不知道要分 的凝聚点,否则便不作为凝聚点再选密度仅次于它的点作为考察点,直到 成几类,它通过分析数据,根据一定的分类准则,合理划分数据,从而确 所有样本点考察完毕。 定每个数据点所属的类别。当预先不知道类型数 目,或者用参数估计和非 2.3逐个归类法 参数估计难 以分辨不同类型的类概率密度函数时,就需要采用聚类分析。 一 种选择 了凝聚点又确定 了初始划分的方法,其凝聚点数即为类数 有些聚类分析算法可以自动地确定类的个数K,也可 以给定K作为算法的终 K。首先规定 个‘闽值d。然后选Wl=(y1},计算样本y2与y1的距离D (y2, 止条件。若没有给定K,如何确定K,这是聚类分析中的一个关键问题。现 y1),如其小于d,则归入W1否则建立新的类DJw2={y2)。当轮到样本ye时, 有的聚类算法大致可 以分为:划分方法、层次方法、基于密度的方法、基 已有了K类即,wI,W2,W3,……,WK,而每类 中第一个划入类的样本点分 于网格的方法以及基于模型的方法[1,2,3]。 别为y1],y12,y13,……,Ym 则计算i=l,…,K,若D (yIj,ye)d对所 K一均值聚类分析法:K-均值聚类算法是~种 已知聚类个数的聚类算 有的 D(y.y。)=1,…,K都成立,则建立新类=(y)。否则将Ye归入与 法。指定类个数为K,对样本集合进行聚类,聚类的结果有K个聚类中心来 yl1,y12,…,ylK距离最近 的类别 中 表达,基于给定的聚类 目标函数 (或者说是聚类效果判别准则),算法采 2.4爬山法——最优聚类数的逻辑判定法 用迭代更新的方法,每一次迭代过程都是向目标函数值减少的方 向进行, 在类别数未知情况下使用K一均值算法时,可以假设类别数是逐步增加 最终的聚类结果使目标函数值取得极小值,达到较优的聚类效果 [4]。 的,例如对K=1,2,3,……分别使用该算法。显然准则函数 是艏K的增 K一均值算法的缺点: 加而单调地减少的。如果样本集的合理聚类数为K类,当类别数继续增大 1)K-均值算法聚类数K需要预先给定。 时,相当于将聚类很好的类别又分成予类,$jiJx值虽然继续减少但会呈现 2)算法对初始值 的选取依赖性极大。不同的初始值,结果往往得到 平缓趋势,如果作 —条JK值随K变化的曲线,如下图所示,则其拐点对应的 不同的局部极小值。 类别数就 比较接近于最优聚类数。下图表示C:4是较合适的聚类数。 3)K-均值算法需要不断地进行样本分类调整,不断地计算调整后的 新的聚类中心,因此当类的个数非常大时,算法的时间开销是非常大的。 4)由于将均值点作为聚类中心进行新一轮计算,远离数据密集区的

文档评论(0)

kfigrmnm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档