- 19
- 0
- 约2.87万字
- 约 5页
- 2018-11-26 发布于天津
- 举报
基于弱相关化特征子空间选择的离散化随机森林并行分类-计算机科学
Vo l. 43 No.6
第 43 卷第6 期 计算机科学
2016 年 6 月 Computer Science June 2016
基于弱相关化特征子空间选择的离散化随机
森林并行分类算法
陈曼骋袁景凌王啸岩朱赛
(武汉理工大学计算机科学与技术学院 武汉 430070)
摘 要 随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类
算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段
对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,
构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效采;并通过研究随机森林
的并行化策略,结合 MapReduce 框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算
效率。
关键词 随机森林,离散化,弱相关化特征子空间,并行分类
中固法分类号 TP311 文献标识码 A DOI 10. 11896/j. issn. 1002-1372♀ 2016. 6. 011
Parallelization of Random Forest Algorithm ßased on Discretization and
Selection of Weak-correlation Feature Subspaces
CHEN Min-cheng YUAN Jing-ling WANG Xiao-yan ZHU Sai
(School of Computer Science and Technology ,Wuhan University of Technology ,Wuhan 430070 ,China)
Abstract With the coming of the big data age ,data information is increasing exponentially at a dramatic rate. The tradi
tional classification algorithm will encounter great challenges. In order to improve the efficiency of classification algo
rithm ,this paper proposd a parallel random forest algorithm based on discretization and the selection of the weak-corre-
lation feature subspaces. This algorithm discretizes continuous attributes in data pretreatment phase. At the step of the
selection of feature subspaces for growing decision trees ,we used vector space modal of attributes to calculate the corre
lation between attributes ,and then constructed the weak-correlation feature subspaces. This algorithm not only reduces
t
您可能关注的文档
- 园艺作物繁殖学教学大纲.PDF
- 园艺作物的设施栽培.PDF
- 固体静力学边值问题的光滑粒子解法.PDF
- 国中理化科辅助学习影带浮力.PDF
- 固定式直梯.DOC
- 国内首部节能改造服务规范地方标准发布暨宣贯大会圆满召开-新能源.PDF
- 国家大剧院美育发展工作总结-北京高等学校社会力量参与小学体育.PDF
- 国家大剧院悉尼歌剧院.PPT
- 国家科技支撑计划项目可行性研究报告-武汉理工大学科学技术发展院.DOC
- 国小教师面临讨论式数学教学问题之个案研究-国北教大教务处.PDF
- 基于循环谱能量的自适应频谱检测算法Adaptivespectrumsensing.PDF
- 基于情景感知的网络安全风险评价模型与方法-计算机工程.PDF
- 基于改进三角模糊数的网络安全风险评价方法倡-计算机应用研究.PDF
- 基于插值理论的分数延迟杂波自适应对消算法.PDF
- 基于改进型量子遗传算法的微网经济优化运行.PDF
- 基于改进统计的数据离散化算法-大连理工大学学报.PDF
- 基于改进蜘蛛群集算法的木薯收获机块根拔起速度-IngentaConnect.PDF
- 基于政策工具视角的长三角城群智慧城政策分析-情报杂志.PDF
- 基于数值模拟的蠕虫床工艺参数优化.PDF
- 基于数字图像处理的掺气浓度测量研究-长江科学院.PDF
最近下载
- 2013款比亚迪M6新版电路图(含488、电动滑门及全景影像).pdf VIP
- CECS19-1990 混凝土排水管道工程闭气检验标准.docx VIP
- DB21_T 4245-2025 地理标志产品 抚顺林下参.docx VIP
- DB21_T 4246-2025 农产品地理标志产品 新宾大米.docx VIP
- DB21_T 4249-2025 林下辽细辛种植技术规程.docx VIP
- 2026年深圳中考历史命题趋势预测试卷(附答案可下载).docx VIP
- 2026年深圳中考物理命题趋势预测试卷(附答案可下载).docx VIP
- 高维空间的时空紧致化.pdf
- 林下种植实施方案.docx VIP
- [臺 灣文獻叢刊077]天妃顯聖錄.pdf VIP
原创力文档

文档评论(0)