基于半监督学习的两种聚类算法研究-计算机软件与理论专业论文.docxVIP

下载本文档

7
0
约5.01万字
约 73页
2019-02-15 发布于上海
举报
版权申诉

基于半监督学习的两种聚类算法研究-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

㈧㈣m洲哪洲m㈨㈣I ㈧㈣m洲哪洲m㈨㈣ I Y1 949649 基于半监督学习的两种聚类算法研究摘要在机器学习领域，有监督学习和无监督学习是两种常用的学习算法。有监督学习中学习器通过对大量有标签数据的学习，从而建立起用于预测无标签数据标签的模型；无监督学习则是在没有任何数据的先验知识下对数据进行分析从而自动完成数据的聚集。事实上，在许多实际应用中，经常会面临有标签数据在数量上的不足，或者是需要耗费很大的人力、物力和时间去标注数据，而完全不采用数据的一些先验知识的无监督学习往往不能得到有效的聚类效果。半监督学习方法就是用来处理大量的无标签数据和少量有标签数据的学习方法。半监督学习结合了两种传统学习算法的优～。．势，它将少量“昂贵的”有标签数据和大量‘‘廉价的”无标签数据有机地结合在一起，并将其作为先验知识用于指导学习的过程，较传统的机器学习算法能够获得较好的学习效果。半监督学习在理论研究和实际应用中都有着重大的意义。本文以半监督学习为基础，主要研究了两种基于半监督学习的聚类算法，在当前经典聚类算法的基础上进行半监督推广。在聚类分析的很多实际问题中，往往可用的成对约束集较少，考虑将数据集本身存在的空间结构信息和性质加以利用，从而自动完成约束集的扩展。本文研究了三种成对约束集扩展的方法：(1)依据成对约束的二值传递关系进行约束扩展。(2)在半监督学习的两类假设的基础上定义基于流形的密度敏感距离来取代传统的欧式距离，然后基于流形的密度敏感距离对数据成对约束进行扩展。(3)基于主动学习的策略来完成数据成对约束的扩展，目的是挖掘出具有代表性的成对约束对，从而能对聚类算法起到积极的指导作用。将扩展的约束集集成数据降维和聚类，即在投影空间中使用基于成对约束的尺均值算法对数据聚类，算法不仅能够处理高维数据和降低基于约束的半监督聚类算法的 I 计算复杂度，而且能够有效解决聚类过程中成对约束的违反问题和提高聚类效果。计算复杂度，而且能够有效解决聚类过程中成对约束的违反问题和提高聚类效果。基于中心划分的聚类方法，面临的一个问题是不适用于多重尺度及任意空间形状的数据聚类处理，因此对于聚类结构比较复杂的数据集，聚类算法往往不能得到很好的聚类结果。另外对于比较松散聚类结构，AP算法倾向于产生较多的局部聚类。本文提出一种基于空间一致性的半监督近邻传播聚类算法，算法首先利用扩展的成对约束信息对数据点进行成对约束调整，构造稀疏距离矩阵。其次从整个数据观测空间完成基于密度的流形搜索，用以判别空间数据的不同流形分布。对于流形分布全局而言，通过函数变换完成不同流形上数据点对之间的距离度量的缩小或放大；而对于局部而言，将处在同一流形上的数据点映射成近邻传播算法容易处理的超球形或超椭球形的凸分布形状。仿真实验验证了本文算法较于传统的AP算法和其他经典的基于中心划分的聚类算法具有更好的聚类效果。关键词：半监督学习；成对约束；闭包；近邻传播：先验知识；聚类 Ⅱ RESEARCH RESEARCH ON TWO CLUSTERING ALGORITHMS BASED ON SEMI．SUPERVISED LEARNING AB STRACT Supervised learning and unsupervised learning are two frequently-used learning methods in the field of machine learning．In supervised learning，a large number of labeled data are taken as prior knowledge to construct a model which is used to predict the unlabeled data．Unsupervised learning is always absence of any prior knowledge to analyze the data and complete clustering．In fact，we often face the shortage of labeled data in many practical applications，or WC must spend a lot of human resources，material resources and time labeling the data．Semi-supervised learning algorithm combines the advantages of traditional learning algorithms，a