聚类集成学习算法的研究.docVIP

下载本文档

63
0
约4.04千字
约 10页
2018-11-06 发布于福建
举报
版权申诉

聚类集成学习算法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类集成学习算法的研究

聚类集成学习算法的研究　　【摘要】　　聚类的目标是通过将无类标签的数据组合成多个群集对象，找出该数据集的内在结构。一个好的聚类算法能够产生出高质量的聚类，其中聚类内的相似度最大，而聚类间的相似度最小。聚类可作为卓越独立的探索工具，用于洞察数据的内在本质特征，也可对数据进行预处理，辅助大数据挖掘任务。　　【关键词】　　聚类；集成学习；算法　　1 聚类集成算法　　1.1聚类　　聚类的目标是通过将无类标签的数据组合成多个群集对象，找出该数据集的内在结构[jain et al.，1999]。一个好的聚类算法能够产生出高质量的聚类，其中聚类内的相似度最大，而聚类间的相似度最小。　　1.1.1聚类方法　　很多聚类方法被开发出来，并从不同的角度对各种各样分类系统进行了定义，比如使用处理不同数据类型的算法，采用不同的假设方法等。此处，还可以将聚类方法大体上归纳成以下几个类别。　　分区方法。该方法通过优化一个目标划分准则，将D组织成K个分区。最知名的划分方法是k-均值聚类[Liody，1982]。　　分层方法。该方法在D的不同粒度级别上，建立一个层次聚类，或者在指定粒度级别上，通过设置层次阈值，获得特定的聚类。　　基于密度的方法。该方法用密度的概念在D上构建聚类，高密度样本区域是被低密度区域分割的聚类。DBSCAN[Ester et al.，1996]便是一个具有代表性的基于密度的聚类方法。　　基于网格的方法。该方法将D量化成有限个单元格，最终形成一个网格结构，其中量化过程通常在一个多分辨率的样式下进行。STING[Wang et.，1997]便是一个典型的基于网格的方法。　　基于模型的方法。此类方法假设假设用一个数学模型表征D的特性，并用形成的聚类优化数据与基本模型之间的拟合度。最著名基于模型的方法是基于GMM的聚类[Redner and Walker，1984]，该算法的核性思想是利用用高斯混合模型（GMM）。　　1.1.2聚类结果评估　　评估聚类结果质量的任务通常被称为聚类有效性分析[Jain and Dubes，1988，Halkidi et al .2001]。用于评估聚类质量的有效性指标可大致归成两种类型：外部指标与内部指标。　　外部指标通过将确定的聚类与预先指定结构（已知正确的聚类标签）进行比较的方式评估聚类结果。流行的外部聚类有效性验证指标有Jaccard系数（JC），Fowakes与mallows指标（FMI），Rand指标（RI）所有这些聚类有效性验证指标取值都在0与1之间，该指标值越大，聚类结果的质量越好。　　内部指标评估聚类结果的质量是通过考察确定聚类的固有属性，而不是诉诸于一个参考结构。流行的内部聚类有效性验证指标有Silhouette指数（SI），Dunn指数（DI），Davies-bouldin指数（DBI）。DBI的值越小，则聚类质量越好；而DI与SI的值越大，则聚类质量越好。　　1.2研究聚类集成算法的动机　　聚类集成算法也称群集集成算法或共识聚类算法。此类集成算法的基学习器由聚类算法生成。考察研究聚类集成算法的动机主要有提高聚类的质量，提高聚类算法的鲁棒性，知识重用与分布式计算等。　　1.3聚类集成问题　　令X={x1，x2，…，xN}是具有N个点的数据集，={π1，π2，…，πM}是基聚类器集合，每个基聚类器的计算结果是πi={Ci1，Ci2，…，Ciki}，其∪kij=iCij=X中，ki是第i个基聚类器所含有的聚类数目。对于每一个x∈X，C（X）是样本x所对应的聚类标签。如果x∈Cij，则第i个聚类C（x）=j。在数据集上计算最终的聚类结果π*，聚类集成算法的过程：在一个数据集X上，通过应用基聚类器生成器（π1，…，πM），获得多样化的基聚类器，然后通过使用一个共识函数，整合基聚类器所得结果（π），建立最终的聚类结果。该过程主要有两个阶段：（1）生成聚类成员，（2）通过共识函数产生最后的聚类结果。　　1.4聚类集成算法的构成　　聚类集成算法主要由基聚类器的生成，共识函数与聚类结果的质量评估三部分构成。　　1.4.1基聚类器的生成　　实际应用表明，用误差截然不同的基聚类器构建的聚类集成算法是最有效的。当整合完全一致或非常相似的基聚类器所得结果时，将无法改善所构建的聚类集成算法性能。　　典型的基聚类器的生成方法包括：同构集成方法，k选择聚类集成方法，数据子空间/采样方法与异构集成方法。　　1.4.2共识函数　　在获得了基聚类器后，便可以应用各式各样的共识函数，对基聚类器所得结果进行整合，得出最终的聚类结果。大体上讲，共识函数可以分为以下几类：成对相似性共识函数，基于图的共识函数，基于特征的共