一种基于k-prototype的多层次聚类改进算法.pdfVIP

一种基于k-prototype的多层次聚类改进算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第35卷第3期 河海大学学报(自然科学版) VoI.35No.3 2007年5月 J01lrna】ofHohai Mav2007 U血versity(NatumlScierlces) 李士进,朱跃龙,刘 净 (河海大学计算机及信息工程学院,江苏南京210098) 摘要:针对k.proto噼算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的 问题,提出一种基于k—pfoto毗的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高 的簇进行再聚类,以提高聚类质量.以ucI标准测试数据集进行实验,实验结果表明,该改进算法能 够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现. 关键词:聚类;混合数据;多层次聚类;k.pmto孵聚类 中图分类号:弼11 文献标识码:A 文章编号:1000一1980(2007)03—0342一06 聚类分析是数据挖掘中一个非常活跃的研究分支,具有广泛的应用前景.聚类方法主要有以下几类llj: 子;(e)基于模型的方法,如一些统计学和神经网络的方法. 上述方法存在以下问题:(a)对于可处理的数据类型存在局限,许多算法只限于处理仅包括数值属性或 仅包括类别属性的数据集,对于适合于混合属性数据集的聚类算法却较少;(b)需要确定一些参数,并且这些 参数的设置和聚类的结果密切相关,特别是很多算法需预先给出聚类的簇数;(c)对数据分布的适应性,一些 算法只能发现球状分布的簇,而无法发现任意形状的簇;(d)其他问题,如高维数据的可伸缩性,对输入顺序 的敏感性,可扩展性,对噪声的处理能力等. 种数据集的算法较少,而且聚类效果也不佳.另外,聚类簇数的确定一直是聚类分析难以解决的问题.目前的 聚类集成算法大多是一种并联式结构,由于需要对聚类成员的聚类结果进行匹配和融合,所以时间复杂度较 高;同时确定聚类簇数的问题依然存在,特别是聚类成员的簇数、最终的聚类簇数以及两者之间的关系更是 一个难以确定的问题. 该算法适合于混合型数据集,采用了级联式结构,避免了匹配和融合的过程,并且只需给出聚类簇数的一个 初步估计值,随着聚类层次的增加对簇数进行自适应调整.本文以ucI标准测试数据集进行实验,证明了该 算法具有较高的聚类准确率,明显提高了混合型数据集的聚类效果,其时间复杂度较低,具有很好的可扩 展性. 1多层次聚类改进算法 聚类. 收稿日期:2006—09一19 基金项目:水利部“948”资助项目(200517);河海大学科技创新基金资助项目(406097) 作者简介:李士进(19r73一),男,江苏姜堰人,副教授,主要从事模式识别及数据挖掘研究 万方数据 万方数据 河海大学学报(自然科学版) 第35卷 果存在一个e¨∈E,使得e州≤a*e一,那么该属性参与再聚类. b.通过期望和标准差来判断各类别在该属性上是否有不相交的区间,对于簇c判断属性4i是否参与 如果是,那么属性Ai参与再聚类. 值项所对应的类属性参与下一层次再聚类. 1.2.3 算法 综上所述,基于k—prototype的多层次聚类算法的具体描述如下: a.设定第一层次的聚类簇数后,纯度阈值以及聚类树的层次限定. b.采用k.prototype算法对整个数据集进行聚类,得到第一层次的后个簇{G1,c2,…,c≈}. c.分析该层中簇G的纯度,若簇c。纯度大于或等于纯度阈值,则簇c;停止再聚类形成聚类树的叶子 结点,否则进行再聚类. d.对需进行再聚类的簇ci,利用上述方法对数值属性和类属性分别进行分析,选择参与再聚类的属性 子集,并按簇中各类别数据所占比例来决定再聚类的簇数尼i. {G,l,c∞,…,G矗},即完成了簇G的再聚类.对该层中其他的簇重复进行步骤c,d,e的操作. f.当对该层次中所有需进行再聚类的簇完成了再聚类以后,聚类树的层次就增加了一层,此时判断这 个聚类多叉树是否已经生长到限定的层次,如果是,则停止下一层次的聚类,这一层次中所有子簇都将成

文档评论(0)

wangshirufeng + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档