- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类集成学习算法的研究
聚类集成学习算法的研究
【摘要】
聚类的目标是通过将无类标签的数据组合成多个群集对象,找出该数据集的内在结构。一个好的聚类算法能够产生出高质量的聚类,其中聚类内的相似度最大,而聚类间的相似度最小。聚类可作为卓越独立的探索工具,用于洞察数据的内在本质特征,也可对数据进行预处理,辅助大数据挖掘任务。
【关键词】
聚类;集成学习;算法
1 聚类集成算法
1.1聚类
聚类的目标是通过将无类标签的数据组合成多个群集对象,找出该数据集的内在结构[jain et al.,1999]。一个好的聚类算法能够产生出高质量的聚类,其中聚类内的相似度最大,而聚类间的相似度最小。
1.1.1聚类方法
很多聚类方法被开发出来,并从不同的角度对各种各样分类系统进行了定义,比如使用处理不同数据类型的算法,采用不同的假设方法等。此处,还可以将聚类方法大体上归纳成以下几个类别。
分区方法。该方法通过优化一个目标划分准则,将D组织成K个分区。最知名的划分方法是k-均值聚类[Liody,1982]。
分层方法。该方法在D的不同粒度级别上,建立一个层次聚类,或者在指定粒度级别上,通过设置层次阈值,获得特定的聚类。
基于密度的方法。该方法用密度的概念在D上构建聚类,高密度样本区域是被低密度区域分割的聚类。DBSCAN[Ester et al.,1996]便是一个具有代表性的基于密度的聚类方法。
基于网格的方法。该方法将D量化成有限个单元格,最终形成一个网格结构,其中量化过程通常在一个多分辨率的样式下进行。STING[Wang et.,1997]便是一个典型的基于网格的方法。
基于模型的方法。此类方法假设假设用一个数学模型表征D的特性,并用形成的聚类优化数据与基本模型之间的拟合度。最著名基于模型的方法是基于GMM的聚类[Redner and Walker,1984],该算法的核性思想是利用用高斯混合模型(GMM)。
1.1.2聚类结果评估
评估聚类结果质量的任务通常被称为聚类有效性分析[Jain and Dubes,1988,Halkidi et al .2001]。用于评估聚类质量的有效性指标可大致归成两种类型:外部指标与内部指标。
外部指标通过将确定的聚类与预先指定结构(已知正确的聚类标签)进行比较的方式评估聚类结果。流行的外部聚类有效性验证指标有Jaccard系数(JC),Fowakes与mallows指标(FMI),Rand指标(RI)所有这些聚类有效性验证指标取值都在0与1之间,该指标值越大,聚类结果的质量越好。
内部指标评估聚类结果的质量是通过考察确定聚类的固有属性,而不是诉诸于一个参考结构。流行的内部聚类有效性验证指标有Silhouette指数(SI),Dunn指数(DI),Davies-bouldin指数(DBI)。DBI的值越小,则聚类质量越好;而DI与SI的值越大,则聚类质量越好。
1.2研究聚类集成算法的动机
聚类集成算法也称群集集成算法或共识聚类算法。此类集成算法的基学习器由聚类算法生成。考察研究聚类集成算法的动机主要有提高聚类的质量,提高聚类算法的鲁棒性,知识重用与分布式计算等。
1.3聚类集成问题
令X={x1,x2,…,xN}是具有N个点的数据集,={π1,π2,…,πM}是基聚类器集合,每个基聚类器的计算结果是πi={Ci1,Ci2,…,Ciki},其∪kij=iCij=X中,ki是第i个基聚类器所含有的聚类数目。对于每一个x∈X,C(X)是样本x所对应的聚类标签。如果x∈Cij,则第i个聚类C(x)=j。在数据集上计算最终的聚类结果π*,聚类集成算法的过程:在一个数据集X上,通过应用基聚类器生成器(π1,…,πM),获得多样化的基聚类器,然后通过使用一个共识函数,整合基聚类器所得结果(π),建立最终的聚类结果。该过程主要有两个阶段:(1)生成聚类成员,(2)通过共识函数产生最后的聚类结果。
1.4聚类集成算法的构成
聚类集成算法主要由基聚类器的生成,共识函数与聚类结果的质量评估三部分构成。
1.4.1基聚类器的生成
实际应用表明,用误差截然不同的基聚类器构建的聚类集成算法是最有效的。当整合完全一致或非常相似的基聚类器所得结果时,将无法改善所构建的聚类集成算法性能。
典型的基聚类器的生成方法包括:同构集成方法,k选择聚类集成方法,数据子空间/采样方法与异构集成方法。
1.4.2共识函数
在获得了基聚类器后,便可以应用各式各样的共识函数,对基聚类器所得结果进行整合,得出最终的聚类结果。大体上讲,共识函数可以分为以下几类:成对相似性共识函数,基于图的共识函数,基于特征的共
您可能关注的文档
- 职工就业能力提升中政府的作用探析.doc
- 职技校单片机课程教学的改革探索.doc
- 职工档案管理系统的设计.doc
- 职工薪酬新旧会计准则比较的研究.doc
- 职技高师创业教育人才培养的模式探析.doc
- 职工的素质培训问题的研究.doc
- 职技高师大学生职业核心的技能实证分析.doc
- 职工的素质队伍建设初探.doc
- 职工文化建设11个的对策.doc
- 职技高师继续教育“对接实习对换培训”实习的模式探索.doc
- ABB REX640 保护和控制继电器 适用于高级发电和配电应用的一体化保护装置 数据表(中文).pdf
- honeywell霍尼韦尔SmartLine® 电子远传变送器产品文档.pdf
- Fujifilm 富士胶片 ApeosWare Management Suite 2 GM1216C2-6 说明书.pdf
- Panasonic松下HBC软件YA-2KPMV1F01说明书用户手册.pdf
- Colorlight卡莱特AI智能媒体中心AX6K 产品规格书 V1.0说明书用户手册.pdf
- ABB Prerequisite SOP for ServiceNow Discovery BAU 操作说明(英语).pdf
- YJ扬杰SiC MOSFET模块 MC14HFZ12C1N规格说明书.pdf
- YJ扬杰IGBT模块 MG40P12E2A规格说明书.pdf
- YJ扬杰IGBT单管 DGB20N65CTL1K规格说明书.pdf
- ApeosWare 管理套件 系统要求 Management Suite 2 入门指南.pdf
最近下载
- 软件质量保障体系构建.docx
- [八部经典中医学著作].06金匮要略.doc VIP
- 实践总结:东芝电梯CV180、190、330故障代码.doc VIP
- 第五单元第11课《刀言纸语》教学课件-2025-2026学年苏少版(2024)初中美术八年级上册.pptx VIP
- 2024-2025学年北京东城区八年级初二(上)期末物理试卷(含答案).pdf
- 八(上)古诗文赏析(含答案).doc VIP
- 中华人民共和国仲裁法(2025修订版)测试题及答案.docx VIP
- 高速公路桥梁T梁预制架设施工方案.doc VIP
- 济南酒店复盘总结2012.3.15.ppt VIP
- 第十五课《锦上添花》课件-+2025-2026学年赣美版(2024)初中美术七年级上册.pptx VIP
原创力文档


文档评论(0)