基于半监督的K-means聚类改进算法.pdfVIP

下载本文档

40
0
约6.24千字
约 4页
2017-08-26 发布于江苏
举报
版权申诉

基于半监督的K-means聚类改进算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

东莞理工学院学报第 l8卷第 1期 JOURNALOFDONGGUAN UNIVERSITY OFTECHNOLOGY V01．18No．1 2011年 2 月 Feb． 201l 基于半监督的K—means聚类改进算法李小展 (广东工业大学计算机学院，广州 510006) 摘要：针对原始K～means算法的一系列问题，提出一种基于半监督的K—means聚类改进算法，能够自动进行聚类，找出最优 K值，并且最大限度地找出孤立点。首先根据样本集自身的特点，按照 “类内尽可能相似”原则一步一步形成数据集，然后对数据集进行 “去噪”与合并相似簇，最后，利用少量的标记信息指导和修正聚类结果。在 UCI的多个数据集上测试，结果表明改进的算法较原始算法在准确率上有较大提高，并且具有更好的稳定性。关键词：半监督；K—nleallS算法；聚类改进算法中图分类号：TP301．6 文献标识码：A 文章编号：1009—0312 (2011)01—0029—04 近年来，数据挖掘技术得到迅速发展，聚类分析作为数据挖掘领域最为常用的技术之一也越来越频繁地出现在实际应用领域，从而越来越多地引起人们的关注。半监督聚类是近几年提出的一种新型聚类方法，它综合了无监督学习和有监督学习的特点，提高了聚类质量，是近年来数据挖掘领域的重要研究方向之一…。半监督聚类的优越性主要在于针对无标签样本进行聚类时，可利用少量有监督的样本信息。因此，如何在聚类算法中更好地利用有标签样本所包含的领域知识指导聚类过程，是进一步提高聚类质量的关键问题之一。目前，大多数半监督聚类算法来源于传统聚类算法，由传统聚类算法针对引入的有监督样本信息进行扩展。其中，K均值算法作为一种简单高效的聚类算法，成为最早被扩展至半监督领域的方法之一，人们提出了若干种半监督K均值聚类算法。其中，文献 [2]提出了一个基于K—means算法框架和半监督机制的single—means算法，以解决单类中心学习问题；文献 [3]提出了一种半监督K均值多关系数据聚类算法。该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度方法，用于多关系数据的半监督学习；文献 [4]将数据之间的关联限制应用到K—means算法中。 1 传统 K均值算法描述给定一个包含n个数据对象的数据集，并且由用户给出参数k，随机挑选 k个数据对象作为初始聚类的中心，对于剩下的数据对象则根据相似度最近原则，分配给与其最相似的聚类，然后根据现有的聚类结果用已有聚类的质心定义原型，再以这 k个质心作为新的聚类中心，重新对数据集聚类，不断重复这一过程，直到所定义的准则函数趋于给定的值或者开始收敛为止。误差平方和准则函数定义为：．，=∑∑lP—ml ‘ l P ∈xi 式中-，为所有样本的误差平方和，P为空问的数据对象，m 表示簇的平均值 (P和m都是多维的)。传统K一1Tleans算法描述如下：输入：聚类个数k以及包含几个数据对象的样本集X= {xilX∈R，i=1，2，3，…，n}；输出：满足方差最小标准的k个聚类。处理流程： 1)从 n个数据对象中任选 k个数据对象作为初始聚类中心；收稿日期：2010—09—13 作者简介：李小展 (1983一)，男，河南洛阳人，硕士，主要从事网络软件与多媒体技术研究。 30 东莞理工学院学报 2011年 2)依次循环以下两个流程，直到每个聚类不再发生明显变化为止； 3)计算每个数据对象与聚类中心的距离，将其归入最近距离的一个聚类； 4)计算每个 (有变化)聚类的质心，把这些质心作为新的聚类中心。 K—means聚类算法试图找出使误