基于MapReduce的ID3决策树分类算法研究.doc

下载文档 降价啦

8
0
约1.14万字
约 5页
2019-05-29 发布于江西
举报
版权申诉
保障服务

基于MapReduce的ID3决策树分类算法研究.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

计算机与现代化JISUANJI YU XIANDAIHUA2012 年第计算机与现代化 JISUANJI YU XIANDAIHUA 2012 年第 2 期总第 198 期文章编号: 1006-2475( 2012) 02-0026-05 MapReduce ID3 基于的决策树分类算法研究钱网伟 ( 同济大学电子与信息工程学院，上海 201804) 摘要: 决策树算法是经典的分类挖掘算法之一，具有广泛的实际应用价值。经典的 ID3 决策树算法是内存驻留算法，只能处理小数据集，在面对海量数据集时显得无能为力。为此，对经典 ID3 决策树生成算法的可并行性进行了深入分析和研究，利用云计算的 MapReduce 编程技术，提出并实现面向海量数据的 ID3 决策树并行分类算法。实验结果表明该算法是有效可行的。关键词: 云计算; 数据挖掘; 决策树; ID3; MapReduce 中图分类号: TP301． 6 文献标识码: A doi: 10． 3969 / j． issn． 1006-2475． 2012． 02． 008 Research on ID3 Decision Tree Classification Algorithm Based on MapReduce QIAN Wang-wei ( School of Electronics and Information Engineering，Tongji University，Shanghai 201804，China) Abstract: Decision tree is widely used in data mining which is one of the typical classification algorithms． Traditional ID3 tree learning algorithms require training data to reside in memory on a single machine，so they cannot deal with massive datasets． To solve this problem，this paper analyzes the parallel algorithm of ID3 decision tree based on MapReduce model，then proposes a parallel and distributed algorithm for ID3 decision tree learning． The experimental results demonstrate the algorithm can scale well and efficiently process large-scale datasets on commodity computers． Key words: cloud computing; data mining; decision tree; ID3; MapReduce MPI 的并行分布式 SPRINT［5］决策树算法。该算法通过每个节点保存相应的属性表以及维护属性表的 Hash 表来实现并行运算，这将导致数据过度冗余，从而影响超大规模数据处理效率，这就需要一种新的计算模型。云计算( Cloud Computing) 是一种新近提出的计算模式，是分布式计算( Distributed Computing) 、并行 0 引言分类是数据挖掘的主要任务，其中决策树分类是分类挖掘的常用模型，是经典的机器学习算法之一。它能够通过训练数据集的学习来产生相应的决策规则树，目前已成功地应用于 Web 智能、金融分析、天文学和分子生物学等领域［1］。C4． 5 决策树算法更是被 ICDM 评为十大经典的数据挖掘算法之一并位居榜首［2］。传统的决策树算法有 ID3［3］、C4． 5［4］等。但是，随着信息量爆发性地增长，传统内存驻留的决策树算法在处理海量数据时性能问题日益突出，大规模海量数据与处理任务不可能由一般的计算机在规定的时间内完成。为了解决算法内存驻留问题，通过引入高效的数据结构和数据调度策略等来改造决策树学习过程的算法相继提出，如 John Shafer 等提出了基于计算( Parallel Computing) 和网格计算( Grid Compu- MapRe- ［6］。 ting) 的发展云计算的兴起，尤其是［7-8］ duce 框架( 如图 1 ) 的提出，使得大规模数据集可以在