基于弱相关化特征子空间选择的离散化随机森林并行分类-计算机科学.PDFVIP

  • 19
  • 0
  • 约2.87万字
  • 约 5页
  • 2018-11-26 发布于天津
  • 举报

基于弱相关化特征子空间选择的离散化随机森林并行分类-计算机科学.PDF

基于弱相关化特征子空间选择的离散化随机森林并行分类-计算机科学

Vo l. 43 No.6 第 43 卷第6 期 计算机科学 2016 年 6 月 Computer Science June 2016 基于弱相关化特征子空间选择的离散化随机 森林并行分类算法 陈曼骋袁景凌王啸岩朱赛 (武汉理工大学计算机科学与技术学院 武汉 430070) 摘 要 随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类 算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段 对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性, 构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效采;并通过研究随机森林 的并行化策略,结合 MapReduce 框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算 效率。 关键词 随机森林,离散化,弱相关化特征子空间,并行分类 中固法分类号 TP311 文献标识码 A DOI 10. 11896/j. issn. 1002-1372♀ 2016. 6. 011 Parallelization of Random Forest Algorithm ßased on Discretization and Selection of Weak-correlation Feature Subspaces CHEN Min-cheng YUAN Jing-ling WANG Xiao-yan ZHU Sai (School of Computer Science and Technology ,Wuhan University of Technology ,Wuhan 430070 ,China) Abstract With the coming of the big data age ,data information is increasing exponentially at a dramatic rate. The tradi tional classification algorithm will encounter great challenges. In order to improve the efficiency of classification algo rithm ,this paper proposd a parallel random forest algorithm based on discretization and the selection of the weak-corre- lation feature subspaces. This algorithm discretizes continuous attributes in data pretreatment phase. At the step of the selection of feature subspaces for growing decision trees ,we used vector space modal of attributes to calculate the corre lation between attributes ,and then constructed the weak-correlation feature subspaces. This algorithm not only reduces t

文档评论(0)

1亿VIP精品文档

相关文档