K-means聚类算法实现及应用.doc

下载文档 降价啦

5
0
约 6页
2017-08-15 发布于福建
举报
版权申诉
保障服务

K-means聚类算法实现及应用.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

K-means聚类算法实现及应用

K-means聚类算法实现及应用内容摘要本文在分析和实现经典K-means算法的基础上，针对初始类中心选择问题，结合已有的工作，基于对象距离和密度对算法进行了改进。在算法实现部分使用VC6.0作为开发环境、sql sever2005作为后台数据库对算法进行了验证，实验表明，改进后的算法可以提高算法稳定性，并减少迭代次数。关键字 K-means；随机聚类；优化聚类；记录的密度 1 引言 1.1聚类相关知识介绍聚类分析是直接比较各事物之间性质，将性质相近的归为一类，将性质不同的归为一类，在医学实践中也经常需要做一些分类工作。如根据病人一系列症状、体征和生化检查的结果，将其划分成某几种方法适合用于甲类病的检查，另几种方法适合用于乙类病的检查，等等。聚类分析被广泛研究了许多年。基于聚类分析的工具已经被加入到许多统计分析软件或系统中，入S-plus,SPSS,以及SAS。大体上，聚类算法可以划分为如下几类： 1) 划分方法。 2) 层次方法。 3) 基于密度的算法。 4) 基于网格的方法。 5) 基于模型的方法。 1.2 研究聚类算法的意义在很多情况下，研究的目标之间很难找到直接的联系，很难用理论的途径去解决。在各目标之间找不到明显的关联，所能得到的只是些模糊的认识，由长期的经验所形成的感知和由测量所积累的数据。因此，若能用计算机技术对以往的经验、观察、数据进行总结，寻找个目标间的各种联系或目标的优化区域、优化方向，则是对实际问题的解决具有指导意义和应用价值的。在无监督情况下，我们可以尝试多种方式描述问题，其中之一是将问题陈述为对数分组或聚类的处理。尽管得到的聚类算法没有明显的理论性，但它确实是模式识别研究中非常有用的一类技术。聚类是一个将数据集划分为若干聚类的过程，是同一聚类具有较高相似性，不同聚类不具相似性，相似或不相似根据数据的属性值来度量，通常使用基于距离的方法。通过聚类，可以发现数据密集和稀疏的区域，从而发现数据整体的分布模式，以及数据属性间有意义的关联。 2 K-means算法简介 2.1 K-means算法描述 K-means 算法接受输入量k，然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”来进行计算的。K-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。 k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。 2.2 K-means算法实现步骤在原始的K-means算法中，由于数据对象的分类被不断地调整，因此平均误差准则函数在每次迭代过程中的值必定在不断减小。当没有数据对象被调整时，E（E指每个对象到该类中心的距离平方之和）的值不再变化，说明算法运行结果已经达到最优，同时算法运行结束。（1）给定大小为 n 的数据集，令 I =1，选取 K 个初始聚类中心 Z j(I)，j =1，2，3，...，k ；（2）计算每个数据对象与聚类中心的距离D(Xi，Zj(I))；其中 i=1，2，3，…，n，j=1，2，3，…，k，如果满足Xi 到Wk的聚类中心距离最小则Xi∈Wk；（3）令I=I+1，计算K个新的聚类中心； j=1，2，3，…，k 以及平均误差准则函数E的值（4）判断：若 E(I+1)=E(I)则算法结束，否则I=I+1，返回继续执行（2）步。从上面步骤可以看出，该算法的特点为调整一个数据对象后就修改一次聚类中心和准则函数E的值，当考察完N个数据对象后，一次迭代运算完成，新的聚类中心和E值也计算出来了。如果在一次迭代前后，E的值没有变化，说明算法已经收敛，即使用准则E作为算法是否结束的依据。在迭代的过程中，E值逐渐减小，直到它的最小值为止。在算法的每次迭代过程中，把每一个数据对象分到离它最近的聚类中心所在的簇。 3. K-means算法初始类中心的选择 3.1 经典K-means算法初始类中心选择方法先从需要聚类的所有对象中随机选取一个对象作为第一个初始聚类中心，然后从剩下的记录中随机选出下一个初始类中心，如此依次得到所有初始聚类中心，这样避免的类中心的重复。C++语言实现如下：m_numcluster指要聚类的数目，m_object