基于流形距离密度峰值快速搜索聚类算法.docVIP

下载本文档

18
0
约6.32千字
约 11页
2017-06-13 发布于福建
举报
版权申诉

基于流形距离密度峰值快速搜索聚类算法.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于流形距离密度峰值快速搜索聚类算法

基于流形距离密度峰值快速搜索聚类算法　　摘要：针对2014年6月发表在Science上的基于密度峰和快速搜索的聚类算法容易忽略无密度极值的簇的缺陷，提出了一种基于流形距离的密度峰值快速搜索聚类算法。算法利用流形距离弥补了传统欧式距离对于复杂数据无法反应聚类的全局一致性（即位于同一个类中的样本点之间有较高的相似度）的缺陷，通过近邻点充分挖掘复杂数据的流形结构信息，使处于同一个流形中的样本点之间相似性较高，从而正确找到密度极值点作为聚类中心点，完成聚类。本文算法能够发现较复杂的流形结构，在公开数据集上能取得较好的实验结果 ?P键词：聚类；流形距离；密度极值；全局一致性；聚类中心中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2017）02-0179-04 Clustering by Fast Search and ?nd of Density Peaks Based on Manifold Distance ZHANG Jia-qi1，2，ZHANG Hong-yun1，2 （1.Department of Computer Science and Technology， Tongji University， Shanghai 201804， China；2.Key Laboratory of Embedded Systems and Service Computing，Ministry of Education，Tongji University，Shanghai 201804， China） Abstract：The clustering algorithm based on density peak and fast search， which was published on Science in June 2014， is easy to ignore the cluster which has no density extreme value.So We propose an algorithm based on manifold distance to solve this problem.Instead of Euclidean distance，the algorithm uses manifold distance to reflect the global consistency of samples，which means the samples in the same cluster have high similarity.We find manifold structure information of complex data by neighbor points ，so that samples in the same manifold have high similarity and the cluster center is easy to find. In this paper， we can find manifold structure of complex data， and obtain better results in the open data sets. Key words：clustering；manifold distance；density peak； global consistency；clustering center 1 概述聚类作为一种有效的数据分析手段，已成为模式识别，人工智能，数据挖掘等领域的研究热点。在聚类分析过程中，不需要任何先验知识或者是假设，因此聚类是一种无监督学习过程。聚类算法包括划分式聚类方法、层次聚类方法、基于密度的聚类方法和基于网格的聚类方法，以及基于模型的聚类算法.K-means[1]是应用范围最广的划分式聚类算法.然而，K-means算法的聚类结果依赖于初始类簇中心的选取，而且倾向于发现凸形状的簇，对噪声点和离群点敏感，且聚类个数K需要事先设定.针对K-means的缺陷，出现了K-modes[2]算法等诸多改进算法. DBSCAN[3]是一种比较典型的基于密度的聚类方法，要求聚类空间中的一定区域内所包含对象（点或其他空间对象）的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类，与K-MEANS比较起来，不需要输入要划分的聚类个数。近邻传播聚类算法AP（affinity propagation）[4]将所有样本看作网络中的一个顶点，通过反复迭代交换近邻样本间的信息，寻找最优的类代表点样本集合，使所有样