聚类集成学习算法的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类集成学习算法的研究

聚类集成学习算法的研究   【摘要】   聚类的目标是通过将无类标签的数据组合成多个群集对象,找出该数据集的内在结构。一个好的聚类算法能够产生出高质量的聚类,其中聚类内的相似度最大,而聚类间的相似度最小。聚类可作为卓越独立的探索工具,用于洞察数据的内在本质特征,也可对数据进行预处理,辅助大数据挖掘任务。   【关键词】   聚类;集成学习;算法   1 聚类集成算法   1.1聚类   聚类的目标是通过将无类标签的数据组合成多个群集对象,找出该数据集的内在结构[jain et al.,1999]。一个好的聚类算法能够产生出高质量的聚类,其中聚类内的相似度最大,而聚类间的相似度最小。   1.1.1聚类方法   很多聚类方法被开发出来,并从不同的角度对各种各样分类系统进行了定义,比如使用处理不同数据类型的算法,采用不同的假设方法等。此处,还可以将聚类方法大体上归纳成以下几个类别。   分区方法。该方法通过优化一个目标划分准则,将D组织成K个分区。最知名的划分方法是k-均值聚类[Liody,1982]。   分层方法。该方法在D的不同粒度级别上,建立一个层次聚类,或者在指定粒度级别上,通过设置层次阈值,获得特定的聚类。   基于密度的方法。该方法用密度的概念在D上构建聚类,高密度样本区域是被低密度区域分割的聚类。DBSCAN[Ester et al.,1996]便是一个具有代表性的基于密度的聚类方法。   基于网格的方法。该方法将D量化成有限个单元格,最终形成一个网格结构,其中量化过程通常在一个多分辨率的样式下进行。STING[Wang et.,1997]便是一个典型的基于网格的方法。   基于模型的方法。此类方法假设假设用一个数学模型表征D的特性,并用形成的聚类优化数据与基本模型之间的拟合度。最著名基于模型的方法是基于GMM的聚类[Redner and Walker,1984],该算法的核性思想是利用用高斯混合模型(GMM)。   1.1.2聚类结果评估   评估聚类结果质量的任务通常被称为聚类有效性分析[Jain and Dubes,1988,Halkidi et al .2001]。用于评估聚类质量的有效性指标可大致归成两种类型:外部指标与内部指标。   外部指标通过将确定的聚类与预先指定结构(已知正确的聚类标签)进行比较的方式评估聚类结果。流行的外部聚类有效性验证指标有Jaccard系数(JC),Fowakes与mallows指标(FMI),Rand指标(RI)所有这些聚类有效性验证指标取值都在0与1之间,该指标值越大,聚类结果的质量越好。   内部指标评估聚类结果的质量是通过考察确定聚类的固有属性,而不是诉诸于一个参考结构。流行的内部聚类有效性验证指标有Silhouette指数(SI),Dunn指数(DI),Davies-bouldin指数(DBI)。DBI的值越小,则聚类质量越好;而DI与SI的值越大,则聚类质量越好。   1.2研究聚类集成算法的动机   聚类集成算法也称群集集成算法或共识聚类算法。此类集成算法的基学习器由聚类算法生成。考察研究聚类集成算法的动机主要有提高聚类的质量,提高聚类算法的鲁棒性,知识重用与分布式计算等。   1.3聚类集成问题   令X={x1,x2,…,xN}是具有N个点的数据集,={π1,π2,…,πM}是基聚类器集合,每个基聚类器的计算结果是πi={Ci1,Ci2,…,Ciki},其∪kij=iCij=X中,ki是第i个基聚类器所含有的聚类数目。对于每一个x∈X,C(X)是样本x所对应的聚类标签。如果x∈Cij,则第i个聚类C(x)=j。在数据集上计算最终的聚类结果π*,聚类集成算法的过程:在一个数据集X上,通过应用基聚类器生成器(π1,…,πM),获得多样化的基聚类器,然后通过使用一个共识函数,整合基聚类器所得结果(π),建立最终的聚类结果。该过程主要有两个阶段:(1)生成聚类成员,(2)通过共识函数产生最后的聚类结果。   1.4聚类集成算法的构成   聚类集成算法主要由基聚类器的生成,共识函数与聚类结果的质量评估三部分构成。   1.4.1基聚类器的生成   实际应用表明,用误差截然不同的基聚类器构建的聚类集成算法是最有效的。当整合完全一致或非常相似的基聚类器所得结果时,将无法改善所构建的聚类集成算法性能。   典型的基聚类器的生成方法包括:同构集成方法,k选择聚类集成方法,数据子空间/采样方法与异构集成方法。   1.4.2共识函数   在获得了基聚类器后,便可以应用各式各样的共识函数,对基聚类器所得结果进行整合,得出最终的聚类结果。大体上讲,共识函数可以分为以下几类:成对相似性共识函数,基于图的共识函数,基于特征的共

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档