近似谱聚类算法描述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
近似谱聚类算法描述.doc

二、近似谱聚类算法描述 本节论文阐述基于 相似矩阵稀疏化方法稀疏化后离群点的优化处理,并将该处理步骤应用于谱聚类算法中。基于上述分析近似谱聚类算法整体流程总结描述如表3.2所示。 表3.2 近似谱聚类算法(ASCA) 算法:近似谱聚类算法(ASCA) 输入:数据点 ,待聚类数目 输出:聚类 1. 使用公式 ,(其中 , 是 的 个最近邻按距离排序后第 个邻居,同理, ),构建相似矩阵 ; 2. 使用 稀疏化矩阵 获得半正定矩阵 ,找出矩阵 对称位置不一致的相似度,并将对称元素设置为0,调整为对称半正定矩阵 ; 3. 使用优化公式 对矩阵 进行离群点调优; 4. 计算对称半正定拉普拉斯矩阵 ; 5. 计算 的特征向量分解,找出 第k个最小非零特征特征量,并按列排列k个特征向量构建特征向量矩阵 ; 6. 计算 标准化矩阵 ( ); 7. 使用 粗糙集模型选择k-means初始化聚类中心位置并对矩阵 进行k-means聚类,把其聚类成k组( )。 基于近似谱聚类算法整体步骤描述,为进行近似谱聚类算法Matlab辅助实验铺垫,绘制近似谱聚类算法流程示意图如图3.1所示。Matlab辅助实验主要是将示意图3.1中的所示的算法与正交化Nystr?m低阶子矩阵抽样近似相似矩阵谱聚类算法(ONSP: Orthogonalization Nystr?m Spectral Clustering)和 最近邻稀疏化近似相似矩阵谱聚类算法(tNNSC: Spectral Clustering)进行对比,并验证其聚类效果。 图3.1 近似谱聚类算法流程示意图 三、近似谱聚类算法时间复杂度分析 现对基于 相似矩阵稀疏化方法离群点优化的近似谱聚类算法时间复杂度简单分析,步骤1:使用高斯函数公式构建相似矩阵的时间复杂度是 ,其中 表示数据点数目、 表示数据维数,计算数据点 和 之间的相似度 的时间复杂度是 ,则计算整个数据集的时间复杂度是 ;步骤2:使用 稀疏化矩阵 获得半正定矩阵 并调整为对称半正定矩阵 借助于最大堆,其时间复杂度是 ,其中 是最近邻数;步骤3:优化离群点步骤是非确定性多项式困难问题NP-hard(Non deterministic Ploynomial Hard)问题,其时间复杂度随近似相似度矩阵维数按指数增长;步骤4与步骤5:计算对称半正定拉普拉斯矩阵 并找出k个最小非零特征值的特征向量的时间复杂度在论文第二章第二节中已经详细分析过,即 ;步骤6:计算标准化矩阵 的时间复杂度是 ;步骤7:执行k-means聚类时间复杂度是: ,其中 表示k-means聚类过程迭代的次数, 指待聚类数目。 第三节 近似谱聚类算法实验分析 一、近似谱聚类算法辅助实验 (1)Matlab辅助实验环境描述 为验证表3.2所示近似谱聚类算法与正交化Nystr?m低阶子矩阵抽样近似相似矩阵谱聚类算法和 最近邻稀疏化近似相似矩阵谱聚类算法的性能,鉴于Hadoop MapReduce并行实验对比的工作量过大,故仅设计基于Matlab的对比性实验。Matlab辅助实验环境:近似谱聚类算法(ASC)的Matlab辅助性验证以及其与正交化Nystr?m低阶子矩阵抽样近似相似矩阵谱聚类算法和 最近邻稀疏化近似相似矩阵谱聚类算法的对比。实验所使用的Matlab版本是:Matlab R2011a,运行Matlab的服务器是:Windows Server 2008 R2 Datacenter,系统处理器:Intel(R) CPU E5-260 0 @ 2.30GHz (2处理器),其内存(RAM)32.0GB,系统类型:64位操作系统。 (2)Matlab辅助实验数据集描述 辅助性实验使用的经典文本分类数据集是路透社语料库卷I :RCV1(Reuters Corpus Volume I)[64],其具体描述见表3.3所示。 表3.3 实验数据集描述 数据集 类别数 样本数 特征维数 数据集规模 是否归一化 来自领域 RCV1 103 193844 144 1.23MB 是 工业界术语(ECAT) (3)ASC Matlab实验和对比实验 本实验主要是验证所提出的基于 稀疏相似矩阵优化的谱聚类算法(ASC),图3.2显示分别构造RCV1数据集的 稀疏化相似矩阵(t=10,20,30,40,50,100,200,300,400,500),计算相似矩阵离群点优化时间、ASC算法计算总时间、SVD计算时间和k-means计算时间,以及聚类质量(包括NMI 得分和聚类精确值,聚类精确值计算介绍参见论文第五章第三节实验评估标准),NMI标准化交互信息量(Normalized Mutual Information),NMI是主要的聚类质量评估标准,NMI值越大,表明近似谱聚类算法

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档