一种改进K均值聚类算法.docVIP

下载本文档

25
0
约 7页
2016-05-06 发布于安徽
举报
版权申诉

一种改进K均值聚类算法.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进K均值聚类算法.doc

数据挖掘报告姓名：朱晓康班级：086121 学号：20121002250 指导老师：蒋良孝改进的K均值聚类算法摘要:K-means算法以其简单性和快速性在文本聚类中得到广泛应用，但是传统的K-means算法对初值的依赖性很强，需要事先给出要生成的簇的数目k，而这个参数k的确定一般是根据用户的经验知识给出的；另外，其初始聚类中心是随机选取的，这种随机性往往导致聚类结果的不稳定。可以说，不同的k值和不同的初始聚类中心对聚类质量和时间效率造成的影响是很大的。实验对改进K-means算法的有效性进行了验证，结果证明，改进K-means算法能有效地解决传统K-means算法的随机性所产生的聚类效果不稳定的问题，其时间复杂度也有所降低。一．引言聚类分析广泛应用于模式识别、图像处理、文本挖掘等领域，是非常重要的数据分析方法之一。目前已提出的聚类算法有很多，这些算法可以被分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。在聚类方法中，K均值算法是最著名和最常用的划分方法之一。K均值算法由于实现简单、收敛速度快，自出现以来，已经提出了许多改进的算法。以往文献提出了一种关于K均值的局部搜索近似算法以及针对初始中心敏感提出了一种选取初始聚类中心的算法。本文针对传统K均值算法中计算相似性和选取初始中心点的不足，提出一种改进的算法。二．传统的K均值聚类算法 K均值法具有经典的聚类思想，逻辑简明清晰。它的主要步骤如下：步骤1对给定的m×n矩阵，给出k个n维向量作为初始中心点。步骤2 比较数据集当中样本点与各中心点间的距离，将各点划分到与其距离最近的类中，形成初始分类。步骤3计算步骤2所形成的类的中心，使每类中心点得以更新。步骤4重复步骤2和3，直到中心点不再移动，各类所包含的样本点也不再改变为止。对于K-means算法而言，虽然其算法简单，实现比较容易，但是它的缺点也比较明显： 1.算法之初需要用户事先给出簇的个数，而这个信息通常是聚类之后才知道的。这样就可能出现以下的情况：原本属于同类的对象却被强行拆分到不同的簇中，或是原本不属一类的对象却被强行放到一个簇中。 2.对孤立点敏感。孤立点是指离聚类中心较远，且分布相对稀疏的对象。这样的点对簇的质心计算影响很大，从而影响聚类效果。 3.不能发现非球形的簇、或大小差别很大的簇。与上一点相似，形状不规则的簇对质心计算影响很大，如果质心不在簇内部，聚类过程中可能将其他簇的成员纳入该簇。 4.经常陷入局部最优解，而无法得到全局最优解。 5.聚类结果不稳定，即使对于同样的输人参数，聚类的结果可能完全不同。三．K均值聚类算法的改进改进思想： 1.对孤立点的检测。经典是K均值算法忽略了孤立点。孤立点都是基于距离进行计算的，是数据集u中到其最近邻居的距离最大的对象，换言之，孤立点是数据集中与其最近邻居的平均距离最大的对象。改进过程：先扫描一次数据集，数据个数记为n ，计算每一个数据对象与其他对象的距离，累加距离和，并计算出距离和均值。如果某个数据对象的距离和大于距离和均值，则被视为孤立点。把这个对象从数据集中移除到孤立点集。重复以上操作，直到所有孤立点都移除，孤立点个数记为t。最后得到的新数据集就是聚类的初始集合个数记为m ，则 m=n-t。 2. k值的确定。通常，用户事先并不知道给定的数据集该分成多少个类才最合适。也不知道选取什么样的k值会对聚类分析更有利。对于k值的确定和计算，大多数理论支持过，最佳聚类个数，最大聚类个数，n数据元素个数。 3.基于密度和距离选择初始聚类中心。定义1：密度参数：以空间点施为中心，包含常数Minpts个数据对象的半径称之为对象施的密度参数，用∈表示。∈越大，说明数据对象所处的区域的数据密度越低。反之，说明数据对象所处区域的数据密度越高。定义2：空间两点的距离用公式：样本x和样本y的距离公式：定义3：一个样本点与一个样本集的距离定义为这个样本点与这个样本集中所有样本点当中最近的距离，则一个样本点x和一个样本集合z之间的距离定义如下：定义4：两个集合S和Y之间距离定义为最近的两个数据。对象X和V之间的距离：计算数据集中每个数据所处区域的数据密度，将密度最大的点作为第1个初始聚类中心，将与距离最大的一个高密度点作为第2个初始聚类中心，作为第k(k≥3)个初始聚类中心的