- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
谱聚类算法及其的应用综述
谱聚类算法及其的应用综述
摘要:由于性能优越,谱聚类成为近年来聚类算法研究的热点。谱聚类算法可以在任意形状的样本空间上聚类,并能获得全局最优解。介绍了谱图的基本理论及其划分准则,探讨了谱聚类算法,并针对当前谱聚类应用展望了未来研究方向。
关键词关键词:谱聚类;谱图理论;图划分;应用研究
DOIDOI:10.11907/rjdk.161229
中图分类号:TP312文献标识码:A文章编号文章编号2016)007005403
0引言
聚类就是按照事物的某些特征,把事物分成若干类或簇,使得在同一个类内的对象之间最大程度相似,而不同类之间的对象最大程度不同。聚类分析在数据挖掘、空间数据处理、金融数据分类和入侵检测技术等领域中都得到了广泛应用。传统的聚类算法,如Kmeans和模糊C均值算法(Fuzzy CMeans,FCM)等大都建立在凸球形样本空间上,如果样本空间不为凸,算法就会陷入局部最优。因此,学者们开始研究一种新的聚类方法――谱聚类(Spectral Clustering,SC)算法。该算法由给定的样本数据集定义一个描述数据点之间相似度的亲和矩阵,并计算矩阵的特征值和特征向量,再选择合适的特征向量聚类不同的数据点。谱聚类算法是一个判别式算法,其思想相对简单易于实现,具有识别非凸分布的聚类能力,适合处理许多实际应用问题。本文着重介绍谱聚类的基本理论、算法描述、当前应用及未来研究方向。
1谱聚类基本理论与算法描述
1.1图划分原理
谱聚类是一种基于图论的聚类方法。谱图理论是将数据聚类问题转化成图的多路划分问题,通过分割子图来聚类数据点。谱聚类能对任意形状的样本空间聚类,并能获得全局最优解,其基本思想是通过对样本数据的Laplacian(拉普拉斯)矩阵进行特征分解而得到的特征向量进行聚类。
4结语
针对kmeans算法易受初始聚类中心影响的问题,首先用人工鱼群算法的全局寻优能力搜索初始聚类中心。
为了处理大规模数据,本文提出基于Mapreduce的afsa_km算法。实验结果表明,并行化的afsa_km算法比kmeans算法有更高的准确率,基于Mapreduce实现的afsa_km算法具有良好的加速比和扩展性,效率也有很大提高。 假定将每个数据样本看作图中的顶点V,且样本中的数据对之间都有一定的相似性,由样本间的相似度,将顶点间的边E赋权重值W,得到一个无向加权图G=(V,E),V={v1,v2,...vn}表示点集。图G中,可将聚类问题转化为在图G上的图划分问题。图论中的划分准则一般有Minimum Cut、Average Cut、Normalized Cut、Minmax Cut、Ratio Cut、MN Cut等,划分准则的好坏对聚类结果的优劣产生很大影响。
1.1.1最小割集准则(Minimum Cut)
谱图分割过程中,图的边值代表顶点之间的相关性大小,假设G被划分为A、B两个子图,最小割集的代价函数为:Cut(A,B)=∑i∈A,j∈BWij其中,A∩B=φ,A∪B=V,权重Wij表示Vi与Vj之间的关系。属于子图A的顶点和属于子图B的顶点之间的所有边的和最小化,表示两个子图之间的相关性越小。Wu和Leahy[2]提出最小化上述Cut值来划分图G,即最小割集准则,是最常见也是最简单的评价方法。用该准则对一些图像进行分割也能产生不错的效果。该准则的缺点是分割图像时容易出现偏向小区域的情况。
1.1.2规范割集准则(Normalized Cut)
根据谱图理论,Shi和Malik[3]提出新的目标代价函数NCut为:NCut(A,B)=Cut(A,B)Vol(A,V)+Cut(A,B)Vol(B,V)其中,Vol(A,V)
规范割集准则即最小化NCut函数。与Minimum Cut相比,该准则能平衡类内样本间的相似度,也能平衡类间样本间的相异度,即可以避免偏向小区域分割。一般的聚类算法中,采用NCut准则的情况比较多。
1.1.3比例割集准则(Ratio Cut)
为兼顾孤立点和均衡化问题,Hagen和Kahng[4]提出了比例割集准则,其目标代价函数RCut为:RCut(A,B)=Cut(A,B)min(|A|,|B|)其中,|A|、|B|分别表示子图A、B中顶点的个数,Cut(A,B)是最小割集准则的代价函数。最小化RCut函数引入了一个规模参数作为分母,加大了类间相似性,减低了过分分割的可能性,这是优于最小割集准则的方面,但该准则会使运行速度降低。
1.1.4平均割集准则(Average Cut)
Sarkar和Soundararajan[5]提出平均割集准则,其目标函数Av
文档评论(0)