成对约束半监督聚类算法研究.pdfVIP

下载本文档

128
0
约15.77万字
约 86页
2020-09-20 发布于江苏
举报
版权申诉

成对约束半监督聚类算法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要半监督聚类算法是将传统聚类中加入了半监督学习思想而形成的一种新型算法，可以运用监督信息对聚类进行引导，监督信息可以分为成对约束和独立的类标签，但是在现实生活中，独立类标签往往需要大量的精力才可以获得，而样本之间成对关系的确定较为简单，所以考虑通过成对约束的监督信息来让聚类性能得到提升。但传统半监督聚类的缺点也是不可忽视的。首先初始先验集合的筛选具有随机性，其次在数据集中，带有监督信息的样本点数量远远少于未标记样本点的数量，此时通过主动学习可以对未标记样本数据进行训练，但已有的结合主动学习的半监督框架都具有较高的迭代时间，最后，目前为止成对约束在模糊聚类等软划分的方法上也可能会出现局部最优的情况。针对上述问题，本文对成对约束的半监督算法进行了研究。具体内容如下：针对已有的主动学习半监督研究框架和模型中迭代不稳定且先验信息选择上的随机性，本文考虑运用密度准则对先验集合进行确定，并通过主动学习，对未标记样本中不确定性最大的点进行主动约束标记，并对其约束条件进行了重新定义，通过对传统的半监督聚类进行了改进，提出了基于主动学习的稳定 Cop-Kmeans 聚类算法(Iterative Stable Cop-kmeans Clustering Based on Active Learning, ISCC-AL) 。ISCC-A 算法分两部分进行，分别是构建稳定先验集合和主动迭代框架。通过标准数据集上的实验结果可以看出该算法相比传统半监督聚类，在聚类结果和迭代时间上都具有更好的性能。现实生活中数据集较多都是模糊性的，为了解决由模糊性导致了错误划分情况，同时加入成对约束，提出了改进的基于交叉熵的主动半监督模糊聚类算法 (Active semi-supervised FCM based on Cross-Entropy, ASFCM-CE) 。该算法通过添加权值和交叉熵对目标函数进行改进，并在后续过程中，主动对边界较为模糊点进行约束标记，从而使得聚类边界划分更加清晰。最终通过实验，本文算法可以得到更高的准确率。该论文有图 28 幅，表 14 个，参考文献 111 篇。关键词：成对约束；聚类；半监督聚类；主动学习；交叉熵 I Abstract Semi-supervised clustering algorithm is a new type of algorithm, which is formed by adding semi-supervised learning into traditional clustering. It can guide clustering by using supervised information. Supervised information can be divided into pairs of constraints and independent class labels. However, in real life, independent class labels often need a lot of extra work to obtain, and the determination of pairwise relationship between samples is relatively simple. Therefore, we consider to improve the clustering performance through the supervision information of pairwise constraints. But the shortcomings of traditional semi-supervised clustering cannot be ignored.