一种基于k-prototype的多层次聚类改进算法.pdfVIP

下载本文档

24
0
约 7页
2017-08-20 发布于河北
举报
版权申诉

一种基于k-prototype的多层次聚类改进算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第35卷第3期河海大学学报(自然科学版) VoI．35No．3 2007年5月 J01lrna】ofHohai Mav2007 U血versity(NatumlScierlces) 李士进，朱跃龙，刘净 (河海大学计算机及信息工程学院，江苏南京210098) 摘要：针对k．proto噼算法在处理复杂的数据集时，常出现一些纯度不高的簇，影响了聚类质量的问题，提出一种基于k—pfoto毗的多层次聚类改进算法，利用属性自动选择的方法将一些纯度不高的簇进行再聚类，以提高聚类质量．以ucI标准测试数据集进行实验，实验结果表明，该改进算法能够明显提高混合型数据集的聚类质量，并且在数据约简方面有良好表现．关键词：聚类；混合数据；多层次聚类；k．pmto孵聚类中图分类号：弼11 文献标识码：A 文章编号：1000一1980(2007)03—0342一06 聚类分析是数据挖掘中一个非常活跃的研究分支，具有广泛的应用前景．聚类方法主要有以下几类llj：子；(e)基于模型的方法，如一些统计学和神经网络的方法．上述方法存在以下问题：(a)对于可处理的数据类型存在局限，许多算法只限于处理仅包括数值属性或仅包括类别属性的数据集，对于适合于混合属性数据集的聚类算法却较少；(b)需要确定一些参数，并且这些参数的设置和聚类的结果密切相关，特别是很多算法需预先给出聚类的簇数；(c)对数据分布的适应性，一些算法只能发现球状分布的簇，而无法发现任意形状的簇；(d)其他问题，如高维数据的可伸缩性，对输入顺序的敏感性，可扩展性，对噪声的处理能力等．种数据集的算法较少，而且聚类效果也不佳．另外，聚类簇数的确定一直是聚类分析难以解决的问题．目前的聚类集成算法大多是一种并联式结构，由于需要对聚类成员的聚类结果进行匹配和融合，所以时间复杂度较高；同时确定聚类簇数的问题依然存在，特别是聚类成员的簇数、最终的聚类簇数以及两者之间的关系更是一个难以确定的问题．该算法适合于混合型数据集，采用了级联式结构，避免了匹配和融合的过程，并且只需给出聚类簇数的一个初步估计值，随着聚类层次的增加对簇数进行自适应调整．本文以ucI标准测试数据集进行实验，证明了该算法具有较高的聚类准确率，明显提高了混合型数据集的聚类效果，其时间复杂度较低，具有很好的可扩展性． 1多层次聚类改进算法聚类．收稿日期：2006—09一19 基金项目：水利部“948”资助项目(200517)；河海大学科技创新基金资助项目(406097) 作者简介：李士进(19r73一)，男，江苏姜堰人，副教授，主要从事模式识别及数据挖掘研究万方数据万方数据河海大学学报(自然科学版) 第35卷果存在一个e¨∈E，使得e州≤a*e一，那么该属性参与再聚类． b．通过期望和标准差来判断各类别在该属性上是否有不相交的区间，对于簇c判断属性4i是否参与如果是，那么属性Ai参与再聚类．值项所对应的类属性参与下一层次再聚类． 1．2．3 算法综上所述，基于k—prototype的多层次聚类算法的具体描述如下： a．设定第一层次的聚类簇数后，纯度阈值以及聚类树的层次限定． b．采用k．prototype算法对整个数据集进行聚类，得到第一层次的后个簇{G1，c2，…，c≈}． c．分析该层中簇G的纯度，若簇c。纯度大于或等于纯度阈值，则簇c；停止再聚类形成聚类树的叶子结点，否则进行再聚类． d．对需进行再聚类的簇ci，利用上述方法对数值属性和类属性分别进行分析，选择参与再聚类的属性子集，并按簇中各类别数据所占比例来决定再聚类的簇数尼i． {G，l，c∞，…，G矗}，即完成了簇G的再聚类．对该层中其他的簇重复进行步骤c，d，e的操作． f．当对该层次中所有需进行再聚类的簇完成了再聚类以后，聚类树的层次就增加了一层，此时判断这个聚类多叉树是否已经生长到限定的层次，如果是，则停止下一层次的聚类，这一层次中所有子簇都将成