半监督进化聚类算法及其应用-电路与系统专业论文.docxVIP

下载本文档

4
0
约8.65万字
约 77页
2018-09-18 发布于上海
举报
版权申诉

半监督进化聚类算法及其应用-电路与系统专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

半监督进化聚类算法及其应用-电路与系统专业论文

摘要摘要随着信息技术的快速发展，自动数据收集工具和成熟的数据库技术导致海量数据存放在数据库中，各种类型的数据正以指数速度迅速的增长，虽然我们正被数据淹没，但是缺乏知识从海量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、事先未知的、但又是潜在的有用信息和知识，而数据挖掘技术则成为信息决策领域最前沿和最活跃的研究方向之一。作为数据挖掘的一种强有力的分析工具，聚类分析得到了人们的广泛关注。聚类算法的核心思想为使得相同类别的样本尽可能聚为同一类，不同类别的样本聚为不同类，然而现实中的许多数据信息是十分复杂的，传统的机器学习方法大多只考虑有标记数据或者只考虑未标记数据，但是在很多真实问题中往往是二者并存，如何更有效地利用这些数据成为一个备受关注的问题。作为解决这一问题的关键技术, 半监督学习受到了国际机器学习和数据挖掘界的高度重视, 在这种情况下，半监督聚类算法应运而生。基于上述的背景，本文首先介绍半监督多目标进化的相关理论背景及其在聚类分析中的应用，在此基础上，提出了基于进化的半监督的聚类算法。具体工作如下： 1. 提出了一种基于混合方法的多目标聚类算法。首先，提出了一种基于混合策略的初始化方法，以增加初始种群的多样性；其次，采用一种半监督选择最优解的方法，提高了算法的聚类性能。通过对若干 UCI 数据、人工数据以及高维的高斯数据进行测试，实验结果表明，该算法在聚类正确率上有明显提高。 2. 提出了一种基于半监督的多目标聚类算法。首先，引入流行距离作为距离测度来描述数据样本之间的相似性，该测度很好的反映了复杂数据的分布情况；其次，提出一种新颖的基于半监督的初始化方法，该方法采用 K 近邻思想，一方面能获得聚类数据集的类别数，同时也得到质量较高的初始解；再者，提出了改进的变异算子，以此控制聚类的类别数；最后，采用三个目标函数作为聚类的评价准则，并将排序第一的解选为最优解。通过对 UCI 数据、各种类型的人工数据、高维的高斯数据以及手写体数据的测试，实验结果表明，该算法不仅提高了聚类结果的正确率，其鲁棒性也有很大的提高。 3. 提出了一种基于半监督的高维投影聚类算法。该算法提出了一个新的优化目标函数，同时采用工作 2 中的初始化方法，不仅可以提高初始解的质量，避免算法陷入局部最优，而且新的目标函数使得最优解的质量也有所改 6 摘要进，通过对 UCI 数据、基因数据以及手写体数据的测试，其结果表明，该算法不仅提高了聚类结果的平均值，其最优值也有很大的提高。本课题得到国家自然科学基金 (No 、国家教育部博士点基金 (No.20070701022) 、省自然科学基金 (2010JM8030) 、中央高校基本科研基金 (No.K50511020014)的资助。关键词：半监督聚类算法进化算法高维数据 ABSTRACT ABSTRACT With the rapid development of information technology, automatic data collection tools and mature database technology lead to huge amounts of data stored in the database, every type of data grows rapidly at an exponential rate, we are drowning in data, but lack the knowledge to extract implicit, unknown, but potentially useful information and knowledge from massive incomplete noise, fuzzy and random data, so the data mining technology becomes one of the most active research directions in the field of information decision. As a powerful analytical tool for data mining, clustering analysis has obtained widespread concern. The core idea of clustering algorithm is to maximize class similarity as well as minimize clas