- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于K最近邻居图划分的聚类中心初始化算法.pdf
基于K.最近邻居图划分的聚类中心初始化算法
吴继兵1,2李心科1
l合肥工业大学计算机与信息学院,安徽合肥230009
2安徽工业职业技术学院,安徽铜陵244000
摘要:传统的k-me肌s算法随机选择初始聚类中心,而初始聚类中心的选择对最终的聚类结果有
着直接的影响,因此算法不能保证得到一个唯一的聚类结果。为消除这种影响,提出了一种基于K.
最近邻居图的划分来选择初始聚类中心算法.实验表明,本文算法能够有效减少K.-means算法的迭
代次数,提升聚类精度。
关键词:聚类中心初始化k-me锄s算法
1引 言
相似度,而不同簇中的对象差别较大llJ。数据聚类正在蓬勃发展,有贡献的研究领域包括数据挖掘,统计学,
机器学习,空间数据库技术,生物学,以及市场营销。由于数据库中收集了大量的数据,聚类分析已经成
为数据挖掘研究领域中一个非常活跃的研究课题。它既可以作为一个单独的工具以发现数据库中数据分布
的一些深入的信息,也可以作为其他数据挖掘分析算法的一个预处理步骤。
K-均值(k.means)【2】算法作为划分聚类算法的典型代表,具有算法完善、应用广泛的特点。但传统的
“means算法对初始聚类中心敏感,从不同的初始聚类中心出发,得到的聚类结果也不一样,并且一般不
会得到全局最优解。在实际应用中,由于初始输入不同而造成结果的波动是不能接受的。因此怎样找到一
组初始中心点,从而获得一个较好的聚类效果并消除聚类结果的波动性对k-meanS算法具有重要意义。
针对初始聚类中心的选择,许多学者进行了研究。比较典型的有Paul
s.BIIadley等提出的基于采样的
现多个初始类中心点属于同一实际类别的状况,J.T.Tou等人16J提出限制初始类中心点之间的距离的方法。
这些方法在一定程度上提高了K.均值算法的性能,但在聚类准确率、初始化聚类中心所用时间和聚类迭代
次数方面都有待进~步提高l¨。
本文提出了一种新的基于K.最近邻居图的划分来寻找初始聚类中心的方法,使得初始聚类中心的分布
尽可能体现数据的实际分布,从而以达到减少聚类迭代次数,提高聚类准确率和稳定性。实验表明了这种
方法的可行性和有效性。
2基于K.最近邻居图划分的聚类中心初始化算法
2.1K.最近邻居图
K.最近邻居图(K.NearestNei曲borGr印h)中的每个点代表一个数据对象,如果一个对象是另一个对象
三2垒 盐笠塑I垫盔三壅旦鲨星:2QQ2
的K个最类似的对象之一,则在两个顶点(对象)之间存在一条边。
把冈变量(或回应)和自变量联系起来。我们所做的唯一的假设是,认为它是一个光滑的函数。那么一个
合理的想法就是在观测点集中寻找和它(根据白变量)相近的观测点。当我们谈到邻居时,通常隐含着我
们能够计算观测点间的距离或相异的度量,这些度量能够根据自变量得出。这里,我们局限于最常见的
当讨论聚类方法的时候,我们会考虑变量空间中点的距离的其它定义。
考虑到这里是要优化聚类初始中心,一方面所得K.最近邻居图的极大连通子图的数目要大于初始聚类
中心数目k,另一方面要便于后面所述的划分算法。再者,实验可以证明,K值的增加,对于初始聚类中心
的最后选定影响不大,一般选择2或3即可。例:假设数据挖掘任务是将如下8个点聚类为3个簇:
(2,lO),(2,5),(8,4),(5,8),(7,5),(6,4),(1,2),(4,9)
距离度量方法采用欧几里德距离(取整)得如下相异度矩阵(见图1)。生成2.最近邻居图(见图2)。
O
500
6l
85 O
364250O
y
7l5014360
724l204I140
8l3273726754O
22456414505476O
X
您可能关注的文档
最近下载
- 译林版5年级上册英语全册教学课件(2022年12月修订).pptx
- 机械制造技术(第4版)第14章 机械制造工艺规程设计.ppt VIP
- 电磁振动排种器振动系统参数的确定.pdf VIP
- 《中国金融发展史》课件.ppt VIP
- HTN78A3_Datasheet_V0.1佰泰盛世科技.pdf VIP
- 一种排种器振动试验台.pdf VIP
- 西师版六年级上册数学(全册)课件.pptx VIP
- 北师大版小学三年级数学上册课件【全册】.pptx VIP
- 2025-2030原料药行业市场深度调研及前景趋势与投资研究报告.docx
- 机械制造技术第4版李华.电子教案42962第13章节机械制造工艺尺寸链幻灯片.ppt VIP
文档评论(0)