基于MapReduce的ID3决策树分类算法研究.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计 算 机 与 现 代 化JISUANJI YU XIANDAIHUA2012 年第 计 算 机 与 现 代 化 JISUANJI YU XIANDAIHUA 2012 年第 2 期 总第 198 期 文章编号: 1006-2475( 2012) 02-0026-05 MapReduce ID3 基于 的 决策树分类算法研究 钱网伟 ( 同济大学电子与信息工程学院,上海 201804) 摘要: 决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的 ID3 决策树算法是内存驻留算法,只 能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典 ID3 决策树生成算法的可并行性进行了深入分析和 研究,利用云计算的 MapReduce 编程技术,提出并实现面向海量数据的 ID3 决策树并行分类算法。实验结果表明该算法 是有效可行的。 关键词: 云计算; 数据挖掘; 决策树; ID3; MapReduce 中图分类号: TP301. 6 文献标识码: A doi: 10. 3969 / j. issn. 1006-2475. 2012. 02. 008 Research on ID3 Decision Tree Classification Algorithm Based on MapReduce QIAN Wang-wei ( School of Electronics and Information Engineering,Tongji University,Shanghai 201804,China) Abstract: Decision tree is widely used in data mining which is one of the typical classification algorithms. Traditional ID3 tree learning algorithms require training data to reside in memory on a single machine,so they cannot deal with massive datasets. To solve this problem,this paper analyzes the parallel algorithm of ID3 decision tree based on MapReduce model,then proposes a parallel and distributed algorithm for ID3 decision tree learning. The experimental results demonstrate the algorithm can scale well and efficiently process large-scale datasets on commodity computers. Key words: cloud computing; data mining; decision tree; ID3; MapReduce MPI 的并行分布式 SPRINT[5]决策树算法。该算法通 过每个节点保存相应的属性表以及维护属性表的 Hash 表来实现并行运算,这将导致数据过度冗余,从 而影响超大规模数据处理效率,这就需要一种新的计 算模型。 云计算( Cloud Computing) 是一种新近提出的计 算模式,是分布式计算( Distributed Computing) 、并行 0 引 言 分类是数据挖掘的主要任务,其中决策树分类是 分类挖掘的常用模型,是经典的机器学习算法之一。 它能够通过训练数据集的学习来产生相应的决策规 则树,目前已成功地应用于 Web 智能、金融分析、天 文学和分子生物学等领域[1]。C4. 5 决策树算法更是 被 ICDM 评为十大经典的数据挖掘算法之一并位居 榜首[2]。 传统的决策树算法有 ID3[3]、C4. 5[4]等。但是, 随着信息量爆发性地增长,传统内存驻留的决策树算 法在处理海量数据时性能问题日益突出,大规模海量 数据与处理任务不可能由一般的计算机在规定的时 间内完成。为了解决算法内存驻留问题,通过引入高 效的数据结构和数据调度策略等来改造决策树学习 过程的算法相继提出,如 John Shafer 等提出了基于 计算( Parallel Computing) 和网格计算( Grid Compu- MapRe- [6]。 ting) 的 发 展 云 计 算 的 兴 起 , 尤 其 是 [7-8] duce 框架( 如图 1 ) 的提出,使得大规模数据集可 以在

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档