- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
东 莞 理 工 学 院 学 报
第 l8卷第 1期 JOURNALOFDONGGUAN UNIVERSITY OFTECHNOLOGY V01.18No.1
2011年 2 月 Feb. 201l
基于半监督的K—means聚类改进算法
李小展
(广东工业大学 计算机学院,广州 510006)
摘要:针对原始K~means算法的一系列问题 ,提 出一种基于半监督的K—means聚类改进算法,能够 自
动进行聚类,找 出最优 K值,并且最大限度地找出孤立点。首先根据样本集 自身的特点,按照 “类内尽可能
相似”原则一步一步形成数据集,然后对数据集进行 “去噪”与合并相似簇,最后,利用少量的标记信息指
导和修正聚类结果。在 UCI的多个数据集上测试,结果表明改进的算法较原始算法在准确率上有较大提高,
并且具有更好 的稳定性。
关键词:半监督;K—nleallS算法;聚类改进算法
中图分类号:TP301.6 文献标识码:A 文章编号:1009—0312 (2011)01—0029—04
近年来,数据挖掘技术得到迅速发展,聚类分析作为数据挖掘领域最为常用的技术之一也越来越频
繁地 出现在实际应用领域,从而越来越多地引起人们的关注。半监督聚类是近几年提出的一种新型聚类
方法,它综合 了无监督学习和有监督学习的特点,提高了聚类质量,是近年来数据挖掘领域的重要研究
方向之一…。半监督聚类的优越性主要在于针对无标签样本进行聚类时,可利用少量有监督的样本信
息。因此,如何在聚类算法中更好地利用有标签样本所包含的领域知识指导聚类过程,是进一步提高聚
类质量的关键问题之一。
目前,大多数半监督聚类算法来源于传统聚类算法,由传统聚类算法针对引入的有监督样本信息进
行扩展 。其 中,K均值算法作为一种简单高效的聚类算法,成为最早被扩展至半监督领域的方法之一,
人们提出了若干种半监督K均值聚类算法 。其 中,文献 [2]提出了一个基于K—means算法框架和半
监督机制的single—means算法,以解决单类中心学习问题;文献 [3]提出了一种半监督K均值多关系
数据聚类算法。该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度方法,
用于多关系数据的半监督学习;文献 [4]将数据之间的关联限制应用到K—means算法中。
1 传统 K均值算法描述
给定一个包含n个数据对象的数据集,并且 由用户给出参数k,随机挑选 k个数据对象作为初始聚
类的中心,对于剩下的数据对象则根据相似度最近原则,分配给与其最相似的聚类,然后根据现有的聚
类结果用已有聚类的质心定义原型,再以这 k个质心作为新的聚类 中心,重新对数据集聚类 ,不断重复
这一过程,直到所定义的准则函数趋于给定的值或者开始收敛为止。误差平方和准则函数定义为:
.,=∑∑lP—ml
‘ l P ∈xi
式中-,为所有样本的误差平方和,P为空问的数据对象,m 表示 簇的平均值 (P和m都是多维的)。
传统K一1Tleans算法描述如下:
输入:聚类个数k以及包含 几个数据对象的样本集X= {xilX∈R,i=1,2,3,…,n};
输出:满足方差最小标准的k个聚类。
处理流程 :
1)从 n个数据对象中任选 k个数据对象作为初始聚类中心;
收稿 日期:2010—09—13
作者简介:李小展 (1983一),男,河南洛阳人,硕士,主要从事网络软件与多媒体技术研究。
30 东 莞 理 工 学 院 学 报 2011年
2)依次循环以下两个流程,直到每个聚类不再发生明显变化为止;
3)计算每个数据对象与聚类中心的距离,将其归入最近距离的一个聚类;
4)计算每个 (有变化)聚类的质心,把这些质心作为新的聚类中心。
K—means聚类算法试图找出使误
您可能关注的文档
- 基于VC—DRSA的危化品公路运输风险不确定因素分析.pdf
- 基于VC存取SQL Server中BLOB数据的方法.pdf
- 基于VC与Matlab混合编程实现图像增强处理.pdf
- 基于Veritas Netbackup备份平台的优化措施.pdf
- 基于VISSIM仿真的公交流量比与交叉口人均延误时间关系的研究——以南京市北京东路-龙蟠中路交叉口为例.pdf
- 基于Visual Lisp的高阶多段变性椭圆齿轮节曲线参数化设计.pdf
- 基于Voxler的井下瞬变电磁三维可视化研究.pdf
- 基于VTK的三维地震建模方法研究.pdf
- 基于V-系统的时间序列跳跃点检测新算法.pdf
- 基于WAMS的电力系统低频振荡在线分析算法研究.pdf
文档评论(0)