K-均值算法聚类数的确定.pdfVIP

下载本文档

36
0
约8.14千字
约 2页
2015-08-08 发布于湖北
举报
版权申诉

K-均值算法聚类数的确定.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K-均值算法聚类数的确定.pdf

VA 一嚣高【新技术产业发展】 K一均值算法聚类数的确定刘丹高世臣 (中围地质大学 (北京)信息工程学院北京 100083) 摘要： K—means算法是一种基于划分的聚类算法。它的执行时间主要依赖于k值和初始点的选取，但是在实际问题中缺少对K取值的先验信息和有效选取初始点的方法。提出五种有效的确定K值的方法。这些方法能够根据数据集本身的特性快速自动选取初始中心并给出初始分类个数。关键词：聚类分析；K一均值算法：初始分类中圈分类号：TN911．7 文献标识码：A 文章编号：1671--7597 (2011)0320038--02 0引曹考察。用此方法按样本密度由大到小的顺序考察下去，在每次考察中若发聚类分析：近几年来，聚类作为数据挖掘的主要方法之一，越来越引现所考察的点与所有已选定的凝聚点问的距离都大于d2，便将此点定为新起人们的关注。聚类的输入是一组未分类的数据，而且事先也不知道要分的凝聚点，否则便不作为凝聚点再选密度仅次于它的点作为考察点，直到成几类，它通过分析数据，根据一定的分类准则，合理划分数据，从而确所有样本点考察完毕。定每个数据点所属的类别。当预先不知道类型数目，或者用参数估计和非 2．3逐个归类法参数估计难以分辨不同类型的类概率密度函数时，就需要采用聚类分析。一种选择了凝聚点又确定了初始划分的方法，其凝聚点数即为类数有些聚类分析算法可以自动地确定类的个数K，也可以给定K作为算法的终 K。首先规定个‘闽值d。然后选Wl=(y1}，计算样本y2与y1的距离D (y2，止条件。若没有给定K，如何确定K，这是聚类分析中的一个关键问题。现 y1)，如其小于d，则归入W1否则建立新的类DJw2={y2)。当轮到样本ye时，有的聚类算法大致可以分为：划分方法、层次方法、基于密度的方法、基已有了K类即，wI，W2，W3，……，WK，而每类中第一个划入类的样本点分于网格的方法以及基于模型的方法[1，2，3]。别为y1]，y12，y13，……，Ym 则计算i=l，…，K，若D (yIj，ye)d对所 K一均值聚类分析法：K-均值聚类算法是～种已知聚类个数的聚类算有的 D(y．y。)=1，…，K都成立，则建立新类=(y)。否则将Ye归入与法。指定类个数为K，对样本集合进行聚类，聚类的结果有K个聚类中心来 yl1，y12，…，ylK距离最近的类别中表达，基于给定的聚类目标函数 (或者说是聚类效果判别准则)，算法采 2．4爬山法——最优聚类数的逻辑判定法用迭代更新的方法，每一次迭代过程都是向目标函数值减少的方向进行，在类别数未知情况下使用K一均值算法时，可以假设类别数是逐步增加最终的聚类结果使目标函数值取得极小值，达到较优的聚类效果 [4]。的，例如对K=1，2，3，……分别使用该算法。显然准则函数是艏K的增 K一均值算法的缺点：加而单调地减少的。如果样本集的合理聚类数为K类，当类别数继续增大 1)K-均值算法聚类数K需要预先给定。时，相当于将聚类很好的类别又分成予类，$jiJx值虽然继续减少但会呈现 2)算法对初始值的选取依赖性极大。不同的初始值，结果往往得到平缓趋势，如果作 —条JK值随K变化的曲线，如下图所示，则其拐点对应的不同的局部极小值。类别数就比较接近于最优聚类数。下图表示C：4是较合适的聚类数。 3)K-均值算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当类的个数非常大时，算法的时间开销是非常大的。 4)由于将均值点作为聚类中心进行新一轮计算，远离数据密集区的