一种改进Kmeans聚类算法与孤立点检测研究.docVIP

下载本文档

5
0
约4.03千字
约 8页
2018-08-13 发布于福建
举报
版权申诉

一种改进Kmeans聚类算法与孤立点检测研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进Kmeans聚类算法与孤立点检测研究

一种改进的K-means聚类算法与孤立点检测研究　　摘要:传统的K-means算法对于孤立点数据是非常敏感的,少量的该类数据就能对聚类结果产生很大影响。该文提出了一种改进的K-means算法来消弱这种敏感性。算法基于孤立点检测LOF算法中计算K距离的思想,将大于K距离的数据点作为伪聚类中心参与聚类划分,通过对聚类结果的评价来判断该数据点是否为孤立点。若为孤立点则去掉该点,进而来提高聚类质量。　　关键词:K-means;K距离;孤立点;伪聚类中心　　中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)21-6085-02 　　A Modified K-means Clustering Algorithm and Research on Outlier Detection 　　YING Min-jie, DONG Chun-zhao 　　(Southwest Jiaotong University, Chengdu 610031, China) 　　Abstract: lassical K-means algorithm is very sensitive to outlier data, small amounts of such data can have a great impact on the clustering results. In this paper, a modified K-means algorithm is put forward to weaken this sensitivity. This algorithm bases on the idea of LOF outlier detection algorithm, which regards the data that are greater than K-distance as a pseudo-center. Through the evaluation of clustering results to determine whether the data is an outlier data point. If so, the outlier data point is removed in order to improve the quality of clustering. 　　Key words: k-means; k-distance; outlier data point; pseudo-center 　　聚类是把一组个体按照相似性归成若干类别,使得属于同一类别个体之间的距离尽可能小,而不同类别个体间的距离尽可能的大。聚类作为数据挖掘中的一种重要技术,在模式识别、数据分析以及市场研究等很多领域都发挥着重要作用。目前主要的聚类算法[1-2]有基于划分方法的K-means算法和K-中心算法,基于密度的DBSCAN和OPTICS方法,基于网格的CLIQUE和 STING方法等。本文重点研究了K-means算法,并针对该算法的孤立点敏感性提出了一种改进算法。改进后的K-means算法能很好的削弱孤立点的影响,大大提高了聚类质量。　　1 K-means算法研究　　1.1 K-means算法[1,6] 　　K-means是基于划分方法的一种核心算法,划分的思路是以k为参数,把n个对象分为k个簇,并使簇内具有较高的相似度,簇间具有较低相似度,相似度根据一个簇中对象的平均值来计算。　　K-means算法的处理流程如下: 　　(1) 随机选择k个对象,每个对象都代表一个初始簇中心; 　　(2) 对剩余的对象,计算其与各个簇中心的距离,并将它赋给距离最近的簇; 　　(3) 重新计算每个簇的平均值,并将该平均值作为新的簇中心; 　　(4) 不断重复第(2)、(3)步,直到准则函数收敛或聚类中心不再发生变化,准则函数通常采用平方误差准则。　　1.2 K-means算法的优缺点　　当结果簇是密集的,而且簇之间的区分明显时,它的效果较好。对于大数据集处理,效率较高。但K-means算法不适合发现非凸面形状的簇,并且它对孤立点数据敏感,少量的孤立点数据对聚类效果产生很大影响。　　2 LOF局部孤立因子算法[3]之K距离[4] 　　本论文中,为区分K-means的初始簇中心个数k,将LOF算法的K距离称为K距离。　　K距离,又称局部最大距离,定义为:当对象p至少有k个邻居时,对象p与这k个邻居的最大距离。任何与对象p的距离大于p的k距离的对象不是 p的邻居。即若对象o为p的邻居,则满足以下条件[5]: 　　1) 至少存在k个对象o,使d(p, o)≤d(p,o);