- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计 算 机 与 现 代 化JISUANJI YU XIANDAIHUA2012 年第
计 算 机 与 现 代 化
JISUANJI YU XIANDAIHUA
2012 年第 2 期
总第 198 期
文章编号: 1006-2475( 2012) 02-0026-05
MapReduce
ID3
基于
的
决策树分类算法研究
钱网伟
( 同济大学电子与信息工程学院,上海 201804)
摘要: 决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的 ID3 决策树算法是内存驻留算法,只
能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典 ID3 决策树生成算法的可并行性进行了深入分析和 研究,利用云计算的 MapReduce 编程技术,提出并实现面向海量数据的 ID3 决策树并行分类算法。实验结果表明该算法 是有效可行的。
关键词: 云计算; 数据挖掘; 决策树;
ID3; MapReduce
中图分类号: TP301. 6
文献标识码: A
doi: 10. 3969 / j. issn. 1006-2475. 2012. 02. 008
Research on ID3 Decision Tree Classification Algorithm Based on MapReduce
QIAN Wang-wei
( School of Electronics and Information Engineering,Tongji University,Shanghai 201804,China)
Abstract: Decision tree is widely used in data mining which is one of the typical classification algorithms. Traditional ID3 tree
learning algorithms require training data to reside in memory on a single machine,so they cannot deal with massive datasets. To solve this problem,this paper analyzes the parallel algorithm of ID3 decision tree based on MapReduce model,then proposes a parallel and distributed algorithm for ID3 decision tree learning. The experimental results demonstrate the algorithm can scale well and efficiently process large-scale datasets on commodity computers.
Key words: cloud computing; data mining; decision tree; ID3;
MapReduce
MPI 的并行分布式 SPRINT[5]决策树算法。该算法通
过每个节点保存相应的属性表以及维护属性表的 Hash 表来实现并行运算,这将导致数据过度冗余,从 而影响超大规模数据处理效率,这就需要一种新的计 算模型。
云计算( Cloud Computing) 是一种新近提出的计
算模式,是分布式计算( Distributed Computing) 、并行
0
引
言
分类是数据挖掘的主要任务,其中决策树分类是
分类挖掘的常用模型,是经典的机器学习算法之一。 它能够通过训练数据集的学习来产生相应的决策规 则树,目前已成功地应用于 Web 智能、金融分析、天 文学和分子生物学等领域[1]。C4. 5 决策树算法更是 被 ICDM 评为十大经典的数据挖掘算法之一并位居
榜首[2]。
传统的决策树算法有 ID3[3]、C4. 5[4]等。但是, 随着信息量爆发性地增长,传统内存驻留的决策树算 法在处理海量数据时性能问题日益突出,大规模海量 数据与处理任务不可能由一般的计算机在规定的时 间内完成。为了解决算法内存驻留问题,通过引入高 效的数据结构和数据调度策略等来改造决策树学习 过程的算法相继提出,如 John Shafer 等提出了基于
计算( Parallel Computing) 和网格计算( Grid
Compu-
MapRe-
[6]。
ting)
的 发 展 云 计 算 的 兴 起
,
尤 其 是
[7-8]
duce
框架( 如图 1 ) 的提出,使得大规模数据集可
以在
文档评论(0)