【2018年最新整理】数据挖掘论文决策树.doc

【2018年最新整理】数据挖掘论文决策树.doc

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【2018年最新整理】数据挖掘论文决策树

摘 要 数据挖掘的概念来源于数据库中的知识发现,是数据库研究中一个非常具有应用价值的新领域,它融合数据库、人工智能、机器学习、数理统计学、模糊数学等多个领域的理论和技术。分类技术是数据挖掘的重要分支,它能够对各个行业提供良好的决策支持,对整个社会的发展产生重要而深远的影响。分类的目的是构造一个分类函数或分类模型(分类器),该模型能把数据库中的数据映射到给定类别中的某一个。因此,研究数据分类对数据挖掘技术有很大的意义。 本次实验主要用于分析的是分类算法中的ID3决策树算法,通过对该算法的核心思想进行分析,主要数据结构的解释以及优缺点描述来全面总结整个算法。实验的工作量主要体现在对ID3算法的实现以及为了更好验证其性能而做的剪枝等优化策略,以及代码实现另外两种算法并将最后的对比结果进行图表的整理。 关键词:数据挖掘 ID3算法 性能对比 目 录 摘 要 2 第一章 绪论 5 1.1 实验背景 5 1.2 国内外研究动态 6 1.3 实验的主要内容 6 1.4 本文的组织结构 6 1.5 本章小结 7 第二章 ID3算法简介 8 2.1 ID3算法简介 8 2.2 ID3算法描述 8 2.3 ID3算法的优劣势 10 2.4 ID3算法分析 11 2.5 本章小结 12 第三章 ID3算法实现 13 3.1 实验开发环境 13 3.2 实验使用的数据结构 13 3.3 程序模块介绍 14 3.4 关键技术说明 17 3.5 本章小结 17 第四章 ID3算法比较 18 4.1 训练集描述 18 4.2 ID3算法剪枝 18 4.3 与其他算法的比较 19 4.3.1 与朴素贝叶斯分类 20 4.3.2 与C4.5算法比较 22 4.4 本章小结 23 第五章 总结 24 参考文献 26 图 目 录 图2-1 ID3算法流程图 10 图3-1 自定义树节点类图 13 图3-2 程序函数模块图 16 图4-1 ID3算法剪枝前后对比图 19 图4-2 ID3与BeYesian样本数变化比较图 22 表 目 录 表1-1 各决策树算法比较表 5 表4-1 数据集参数表 18 表4-2 ID3与BeYesian算法对比表 21 表4-3 ID3与C4.5算法对比表 23 绪论 1.1 实验背景 数据挖掘的概念来源于数据库中的知识发现,是数据库研究中一个非常具有应用价值的新领域,它融合数据库、人工智能、机器学习、数理统计学、模糊数学等多个领域的理论和技术。从数据分析的观点来看,数据挖掘分为两类:描述性数据挖掘和预测性数据挖掘。描述性数据挖掘以概要方式描述数据,提供数据所具有的一般性质;预测性数据挖掘分析,建立一个或一组模型,产生关于数据的预测,包括分类和回归。分类可用于提取描述重要数据的模型或预测未来的数据趋势。 分类技术是数据挖掘的重要分支,它能够对各个行业提供良好的决策支持,对整个社会的发展产生重要而深远的影响。分类的目的是构造一个分类函数或分类模型(分类器),该模型能把数据库中的数据映射到给定类别中的某一个。因此,研究数据分类对数据挖掘技术有很大的意义。 用于分类挖掘技术的方法有很多,如决策树方法、遗传算法、贝叶斯网络、粗糙集、K-最临近方法、关联规则方法等等。其中,决策树方法以其算法容易被人理解、易转换成IF-THEN分类规则、效率较高等优点被广泛研究与应用。目前决策树方法中比较流行的算法有ID3、C4.5、CART、SLIQ等。这些算法都是对训练数据样本集建立一颗决策树,并利用建好的决策树,对数据进行预测。决策树的建立可以看成是分类规则的生成过程,因此可以认为,决策树实现了数据分类规则的可视化,其输出结果也容易理解。 表1-1 各决策树算法比较表 算法 选择属性的技术 连续属性的处理技术 剪枝方法 是否必须独立测试样本 可伸缩性 并行性 决策树结构 ID3 信息增益 离散化 分类错误 是 差 差 多叉树 C4.5 信息增益率 预排序 分类错误 否 差 差 多叉树 CART GINI系数 预排序 分类错误 否 差 差 二叉树 SLIQ GINI系数 预排序 MDL 否 良好 良好 二叉树 SPRINT GINI系数 预排序 MDL 否 好 好 二叉树 1.2 国内外研究动态 目前,在许多数据挖掘系统应用中,决策树技术已经得到了研究者和软件公司的极大关注,国内外有许多家公司均推出了自己的数据挖掘系统,其中很多都采用了决策树方法,而Microsoft、SGI、SAS在已推出的数据挖掘系统中,首选的方法都是决策树方法。例如SAS公司的SAS Enterprise Miner是一种通用的数据挖掘工具,通过收集分析各种统计资料和客户购买模式,帮助用户发现业务的趋势,解释已知事实,预测未来结果,并识别完成任务所需关键因素,最终

您可能关注的文档

文档评论(0)

jiupshaieuk12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档