Kmeans聚类算法研究综述.docxVIP

下载本文档

68
0
约8.16千字
约 5页
2015-09-25 发布于重庆
举报
版权申诉

Kmeans聚类算法研究综述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Kmeans聚类算法研究综述

K-means 聚类算法研究综述摘要:总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数，算法流程，并列举了一个实例，指出了数据子集的数目K，初始聚类中心选取，相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means聚类的进一步研究方向。关键词：K-means聚类算法；NP难优化问题；数据子集的数目K；初始聚类中心选取；相似性度量和距离矩阵 Review of K-means clustering algorithm Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal， main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K， cluster initialization， and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last. Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric K-means聚类算法是由Steinhaus 1955年、Lloyed 1957年、Ball Hall 1965年、McQueen 1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后，在不同的学科领域被广泛研究和应用，并发展出大量不同的改进算法。虽然K-means聚类算法被提出已经超过50年了，但目前仍然是应用最广泛的划分聚类算法之一[1]。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。文中总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程，并列举了一个实例，指出了数据子集的数目 K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means聚类的进一步研究方向。 1经典K-means聚类算法简介 K-means聚类算法的目标函数对于给定的一个包含n个 d维数据点的数据集，其中，以及要生成的数据子集的数??K，K-means聚类算法将数据对象组织为K个划分。每个划分代表一个类，每个类有一个类别中心。选取欧氏距离作为相似性和距离判断准则，计算该类内各点到聚类中心的距离平方和（1）聚类目标是使各类总的距离平方和最小。（2）其中，，显然，根据最小二乘法和拉格朗日原理，聚类中心应该取为类别类各数据点的平均值。 K-means聚类算法从一个初始的K类别划分开始，然后将各数据点指派到各个类别中，以减小总的距离平方和。因为K-means聚类算法中总的距离平方和随着类别个数K的增加而趋向于减小（当时，）。因此，总的距离平方和只能在某个确定的类别个数K下，取得最小值。 1.2 K-means算法的算法流程 K-means算法是一个反复迭代过程,目的是使聚类域中所有的样品到聚类中心距离的平方和最小，算法流程包括 4个步骤[1]，具体流程图如图1所示。 1)选定数据空间中K个对象作为初始聚类中心，每个对象代表一个类别的中心 2)对于样品中的数据对象，则根据它们与这些聚类中心的欧氏距离，按距离最近的准则分别将它们分配给与其最相似的聚类中心所代表的类 3)计算每个类别中所有对象的均值作为该类