- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征向量自动选取的谱聚类算法
摘 要:根据谱聚类矩阵特征向量组的分段常值性,提出一种基于特征向量组自动选取的谱聚类算法。其基本思想是:首先根据数据集计算出非对称规范Laplace矩阵,然后选择其前个特征向量,最后利用本征间隙法从上述特征向量中自动选取包含聚类信息的特征向量。实验表明,该算法在一定程度上解决了特征向量自动选取问题,可以获得质量较高的聚类结果。
关键词关键词:谱聚类;特征向量;谱聚类矩阵;本征间隙
DOIDOI:10.11907/rjdk.161953
中图分类号:TP312
文献标识码:A 文章编号:1672-7800(2016)008-0023-03
0 引言
聚类分析是数据挖掘的一个重要研究领域,在统计学、生物学、模式识别、机器学习和社会科学中有着极为广泛的应用。所谓聚类,就是将数据对象分成多个类或簇,使得同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。k-均值聚类是聚类分析中最经典的算法,算法简单,可用于多种类型数据的聚类。但当数据集为非凸时,k-均值聚类往往陷于局部最优,聚?的效果欠佳。此外,对于大小或密度不均匀的簇,k-均值聚类通常无法处理。
谱聚类是一种新型的聚类分析方法,可以克服k-均值聚类等经典方法的某些缺陷。谱聚类方法以图论中的谱图理论为基础,将聚类问题转化为图最优划分问题。在众多图的最优划分准则中,归一化割集准则的划分效果相对较好,是谱聚类中常用的划分准则。对于给定的划分准则和聚类数目k,谱聚类通常采用多路谱聚类算法将数据集划分为k个簇。
最早的谱聚类算法是Ng、Bach和Jordan提出的多路谱聚类方法。代表性的谱聚类算法还有Meila提出的多路归一化割谱聚类方法;Vidal 提出的子空间谱聚类方法;Wang等提出的多流形谱聚类方法;Cheng等提出的低秩谱聚类方法;Elhamifar等提出的稀疏子空间谱聚类方法。
在众多谱聚类算法中,多路谱聚类方法和多路归一化割谱聚类方法因其划分效果较好,算法复杂度也较低,被广大学者普遍接受。但这两种算法尚有一些问题有待研究,例如:如何选取包含聚类信息的特征向量?如何确定较合理的聚类数?
本文在多路谱聚类算法的基础上,对特征向量组的选取问题进行研究,提出一种特征向量自动选取的谱聚类算法,并根据数值实验对该算法进行性能测试。
1 谱聚类算法的基本概念与原理
谱聚类的基本思想是将聚类问题转化为图的最优划分问题,利用图的最优划分准则,使划分出的子图之间的边权之和较小,而子图内的边权之和较大。本文算法设计过程中涉及到的基本概念、性质及原理如下:
1.1 谱聚类矩阵
设数据集为{p1,p2,…,pn},将pi视为图G(V,E)的一个顶点vi,i=1,2,…,n,对边赋权Wij,Wij通常是根据顶点vi,vj间的距离经过某种适当的变换而得,这样就得到一个基于样本点相似度的无向加权图G(V,E,W),从而将数据集{p1,p2,…,pn}的聚类问题转化为在图G(V,E,W)上的最优划分问题。
图划分准则的合理性决定着聚类结果的优劣。由于图划分问题是一个NP难问题,所以首先要将图划分问题转化为连续松弛形式,进而再将其转化为某些谱聚类矩阵的谱分解问题[2]。
常用的谱聚类矩阵如下:
1.3 高斯核参数
在谱聚类算法中,通常先要计算顶点间的距离矩阵,然后再用高斯核函数法将距离矩阵转换为相似矩阵,进而得到各种谱聚类矩阵。根据所选高斯核参数的不同,高斯核函数可分为局部尺度高斯核函数和全局尺度高斯核函数两类。通常采用全局尺度高斯核函数将距离矩阵转化为相似矩阵,具体方法为:
在将距离矩阵转换为相似矩阵的过程中,高斯核参数σ起着极为重要的作用。不同的高斯核参数可能导致不同的划分结果。本文算法中采用Zhang等[11]提出的高斯核函数法。
2 基于特征向量自动选取的谱聚类算法
2.1 算法理论基础
下面给出几个理论结果,它们是本文算法的理论基础。
引理1:非对称规范Laplace矩阵Lrw的性质[2]。
(1)λ,x分别是Lrw的特征值和特征向量的充要条件是λ,x是广义特征值问题Lx=λDx的解。
(2)Lrw具有n个非负、实的特征值:0=λ1≤λ2≤…≤λn。
引理2:连通子图的数目与Lrw的谱之间的关系[2]。
Lrw的特征值0的重数等于图GV,E,W的连通子图V1∪V2∪…∪Vk的数目;特征值0的特征空间由这些子图的指示向量组成。
2.2 算法原理
引理1 确保了Lrw的特征值的实值性和非负性。引理2表明,Lrw的理想情形包含不同类间完全分离的情形,即Lrw的理想情形一般优于相似矩阵和La
文档评论(0)