一种基于抽样的大规模混合数据聚类集成算法.PDFVIP

  • 6
  • 0
  • 约2.81万字
  • 约 4页
  • 2018-12-20 发布于天津
  • 举报

一种基于抽样的大规模混合数据聚类集成算法.PDF

一种基于抽样的大规模混合数据聚类集成算法.PDF

第 43 卷第9 期 计算机科学 Vo1. 43 No.9 2016 年 9 月 Computer Science Sep 2016 一种基于抽样的大规模混合数据聚类集成算法 庞天杰1 梁吉业1 , 2 (太原师范学院计算机系 太原 030619)1 (山西大学计算智能与中文信息处理教育部重点实验室 太原 030006)2 摘 要 混合数据聚类是聚类分析中一个重要的问题。现有的混合数据聚类算法主要是在全体样本的相似性度量的 基础上进行聚类,因此对大规模数据进行聚类时,算法效率不高。基于此,设计了一种新的抽样策略,在此基础上,提 出了一种基于抽样的大规模混合数据聚类集成算法。该算法对利用新的抽样策略得到的多个样本子集分别进行聚 类,并将结果集成得到最终聚类结果。实验证明,与改进的 K-prototypes 算法相比,该算法的效率有了显著提高,同时 聚类有效性指标基本相同。 关键词 聚类,大规模混合数据,聚类集成,抽样,有效性指标 中图法分类号 TP391 文献标识码 A 001 10. 11896/j. issn. 1002-137叉 2016.9.041 Clustering Ensemble Algorithm for Large-scale Mixed Data ßased on Sampling 1 1 2 PANG Tian-jie LIANG li-ye • (Department of Computer Science ,Taiyuan Normal University ,Taiyuan 030619 ,China)1 (Key Laboratory of Computational Intelligence and Chinese Info口nation Processing of Ministry of Education , Shanxi University ,Taiyuan 030006 ,China) 2 Abstract In clustering analysis ,one of the important problems is mixed data clustering. The clustering of existing algo rithms is mainly based on similarity measurement of all samples. Therefore , the efficiency of clustering for large-scale data is not high. so we designed a new sampling strategy and proposed an ensemble algorithm for large-scale mixed data based on sampling. This new algorithm clusters subsets which are obtained by the use of the new sampling strategy re spectively and the final clustering results can be gotten by clustering ensemble. Experiment shows that the efficiency of algorithm is improved significantl

文档评论(0)

1亿VIP精品文档

相关文档