基于数据集特点增强聚类集成算法.docVIP

下载本文档

2
0
约6.82千字
约 11页
2017-11-07 发布于福建
举报
版权申诉

基于数据集特点增强聚类集成算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于数据集特点增强聚类集成算法

基于数据集特点增强聚类集成算法　　摘要：当前流行的聚类集成算法无法依据不同数据集的不同特点给出恰当的处理方案，为此提出一种新的基于数据集特点的增强聚类集成算法，该算法由基聚类器的生成、基聚类器的选择与共识函数构成。该算法依据数据集的特点，通过启发式方法，选出合适的基聚类器，构建最终的基聚类器集合，并产生最终聚类结果。实验中，对ecoli，leukaemia与Vehicle三个基准数据集进行了聚类，所提出算法的聚类误差分别是0.014，0.489，0.479，同基于Bagging的结构化集成（BSEA）、异构聚类集成（HCE）和基于聚类的集成分类（COEC）算法相比，所提出算法的聚类误差始终最低；而在增加候基聚类器的情况下，所提出算法的标准化互信息（NMI）值始终高于对比算法。实验结果表明，同对比的聚类集成算法相比，所提出算法的聚类精度最高，可伸缩性最强。关键词：基聚类器；共识函数；聚类集成算法；聚类误差；自适应性；标准化互信息中图分类号： TP311 文献标志码：A 0 引言目前聚类算法广泛应用于数据挖掘、机器学习、模式识别和统计等应用中。聚类算法大致可以分为层次方法和非层次方法。非层次方法又可以分为四类：分区方法、基于密度的方法、基于网格的方法和基于模型的方法。层次方法处理数据集的过程：要么合并较小的聚类形成大型的聚类，要么分裂大型的聚类形成较小的聚类，该方法产生一个系统树图或相关的代表群。分区方法生成初始的k个聚类，然后在这些聚类中通过反复重新分配类标签的方式提高聚类的质量，聚类数k与迭代次数作为输入参数。K均值（Kmeans）聚类与K中心聚类（Kmedoids），围绕中心点分区（Partitioning Around Medoids，PAM）和聚类大型应用（Clustering LARge Applications，CLARA）均属于此类算法。自组织映射（SelfOrganizing Map，SOM）和迭代自组织数据分析技术（Iterative SelfOrganizing Data Analysis Technique Algorithm，ISODATA）聚类均属于基于模型的方法，并成功地应用于语音识别等领域。模糊C均值算法属于模糊聚类方法。聚类算法的一个难题是：针对相同数据集，使用不同的聚类算法能够获得不同的聚类结果，因此，很难选择出一个恰当的聚类算法对其进行处理。聚类集成算法能够解决此类问题，聚类集成算法首先产生大量的基聚类器，然后使用共识函数对基聚类器所得结果进行整合，输出最终的聚类结果。对当前的聚类集成算法研究[1]表明，基聚类器的多样性是决定聚类集成算法有效性的关键因素，多样化程度越高，聚类集成算法越有效。与上述结论相反，另外一些研究[2]表明，中等水平的多样化是最好的，因为该多样化能够导致聚类集成算法取得较好的结果。这些看似矛盾的实验结果可以解释一个事实，即针对具有各自特点的数据集，需要用不同的方法进行处理。最近的一些研究[3]探讨了如何应用多样化相关的启发式方法，设计或选择出合适的基聚类器，构建出高性能的聚类集成算法，但这些算法被设计成适用于对所有的数据集进行聚类时，便会产生出一个新问题：当用这些算法处理不同的数据集时，这些算法便会失效。针对此问题，提出了一种新颖的聚类集成学习算法——基于数据集特点的增强聚类集成算法（Enhanced Clustering Ensemble algorithm based on Characteristics of Data sets，ECECD），该算法能够根据数据集的特点，采用不同的策略选择出最适合的基聚类器，得出最佳的聚类结果。最后在基准数据集上，对所提出的ECECD进行验证。实验结果表明，ECECD的在标准化互信息（Normalized Mutual Information，NMI）指标与聚类误差指标方面的性能显著优于用于比较的算法对应的性能。依据BSEA、HCE与COEC算法，生成对应的600个候选基聚类器，BSEA中的Kmeans算法的最大迭代步数设为400，误差停止阈值为1E-10。由于Kmeans是最流行的聚类算法，该算法广泛应用于许多集成学习的研究中，因此本文的ECECD以Kmeans作为基聚类器的生成算法。为了使生成的基聚类器多样化，使用不同的参数初始化Kmeans算法，即采用下列三种方式生成基聚类器。第一种方式：在同一个数据集上，应用不同的参数初始化Kmeans 算法，生成不同的基聚类器。Kmeans算法可以访问数据集的所有特征，基聚类器之间的多样化源于对Kmeans算法的随机初始化。因此，通过此种方式获得的基聚类器质量较好，多样化较差。