- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第35卷第3期 河海大学学报(自然科学版) VoI.35No.3
2007年5月 J01lrna】ofHohai Mav2007
U血versity(NatumlScierlces)
李士进,朱跃龙,刘 净
(河海大学计算机及信息工程学院,江苏南京210098)
摘要:针对k.proto噼算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的
问题,提出一种基于k—pfoto毗的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高
的簇进行再聚类,以提高聚类质量.以ucI标准测试数据集进行实验,实验结果表明,该改进算法能
够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现.
关键词:聚类;混合数据;多层次聚类;k.pmto孵聚类
中图分类号:弼11 文献标识码:A 文章编号:1000一1980(2007)03—0342一06
聚类分析是数据挖掘中一个非常活跃的研究分支,具有广泛的应用前景.聚类方法主要有以下几类llj:
子;(e)基于模型的方法,如一些统计学和神经网络的方法.
上述方法存在以下问题:(a)对于可处理的数据类型存在局限,许多算法只限于处理仅包括数值属性或
仅包括类别属性的数据集,对于适合于混合属性数据集的聚类算法却较少;(b)需要确定一些参数,并且这些
参数的设置和聚类的结果密切相关,特别是很多算法需预先给出聚类的簇数;(c)对数据分布的适应性,一些
算法只能发现球状分布的簇,而无法发现任意形状的簇;(d)其他问题,如高维数据的可伸缩性,对输入顺序
的敏感性,可扩展性,对噪声的处理能力等.
种数据集的算法较少,而且聚类效果也不佳.另外,聚类簇数的确定一直是聚类分析难以解决的问题.目前的
聚类集成算法大多是一种并联式结构,由于需要对聚类成员的聚类结果进行匹配和融合,所以时间复杂度较
高;同时确定聚类簇数的问题依然存在,特别是聚类成员的簇数、最终的聚类簇数以及两者之间的关系更是
一个难以确定的问题.
该算法适合于混合型数据集,采用了级联式结构,避免了匹配和融合的过程,并且只需给出聚类簇数的一个
初步估计值,随着聚类层次的增加对簇数进行自适应调整.本文以ucI标准测试数据集进行实验,证明了该
算法具有较高的聚类准确率,明显提高了混合型数据集的聚类效果,其时间复杂度较低,具有很好的可扩
展性.
1多层次聚类改进算法
聚类.
收稿日期:2006—09一19
基金项目:水利部“948”资助项目(200517);河海大学科技创新基金资助项目(406097)
作者简介:李士进(19r73一),男,江苏姜堰人,副教授,主要从事模式识别及数据挖掘研究
万方数据
万方数据
河海大学学报(自然科学版) 第35卷
果存在一个e¨∈E,使得e州≤a*e一,那么该属性参与再聚类.
b.通过期望和标准差来判断各类别在该属性上是否有不相交的区间,对于簇c判断属性4i是否参与
如果是,那么属性Ai参与再聚类.
值项所对应的类属性参与下一层次再聚类.
1.2.3 算法
综上所述,基于k—prototype的多层次聚类算法的具体描述如下:
a.设定第一层次的聚类簇数后,纯度阈值以及聚类树的层次限定.
b.采用k.prototype算法对整个数据集进行聚类,得到第一层次的后个簇{G1,c2,…,c≈}.
c.分析该层中簇G的纯度,若簇c。纯度大于或等于纯度阈值,则簇c;停止再聚类形成聚类树的叶子
结点,否则进行再聚类.
d.对需进行再聚类的簇ci,利用上述方法对数值属性和类属性分别进行分析,选择参与再聚类的属性
子集,并按簇中各类别数据所占比例来决定再聚类的簇数尼i.
{G,l,c∞,…,G矗},即完成了簇G的再聚类.对该层中其他的簇重复进行步骤c,d,e的操作.
f.当对该层次中所有需进行再聚类的簇完成了再聚类以后,聚类树的层次就增加了一层,此时判断这
个聚类多叉树是否已经生长到限定的层次,如果是,则停止下一层次的聚类,这一层次中所有子簇都将成
文档评论(0)