基于决策树的数据挖掘-汽车评价分类的算法设计与实现.doc

下载文档 降价啦

60
0
约1.42万字
约 10页
2017-11-30 发布于江西
举报
版权申诉
保障服务

基于决策树的数据挖掘-汽车评价分类的算法设计与实现.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于决策树的数据挖掘-汽车评价分类的算法设计与实现

基于决策树的数据挖掘 ——汽车评价分类的算法设计与实现 1 决策树技术面临的挑战及目前研究方向随着数据挖掘技术的兴起，作为拟人决策主要方法之一，近年来决策树又重新引起了人们的兴趣，并得到更广泛的应用。目前决策树技术的主要研究方向有以下几点： 1.1决策树技术与其他技术的结合如何将决策树技术和其他新兴的技术相结合以便取长补短一直是决策树技术研究的热点，近几年来国际上发表的有关决策树的文章也大多集中在这个方面的研究。近年关于决策树和其他技术的研究主要包括： 1.1.1决策树技术和神经网络技术相结合[][]。人工神经网络的多层结构使它具有对任意输入输出进行映射的功能。同样，决策树也具有产生维空间下任意复杂的决策边界的功能。因此，可以将决策树重新构造成一个多层的神经网络。这种由决策树转化而成的神经网络具有加快神经网络训练速度等优点。另外一类方法正好相反，它研究的是由神经网络中得到所需要的决策树。这类方法解决了由神经网络得到的知识难于被人们理解的缺点。 1.1.2决策树技术和模糊集合原理的结合决策树技术虽然有许多优点，但也存在着不稳定的缺点，即决策树带来了较大的变动。模糊集合的融通性使人们利用模糊逻辑来解决决策树的这一缺点并取得了不错的效果。最近，C.Olaru提出了一种新的模糊决策树方法-软决策树[]。软决策树综合决策树的生成和修剪来决定其本身的结构，并利用重修（Refitting）和磨合（Backfitting）来提高树的归纳能力。软决策树比一般决策树的正确率要高。此外，M. Dong等人提出的基于前瞻（Look-Ahead）的模糊决策树也能够在得到较好的归纳特性的前提下产生较小体积的决策树[]。 1.1.3决策树技术和进化算法，遗传算法及遗传编程的结合[][][][][]。基于进化算法的决策树系统具有较好的抗噪声能力，同时进化算法很容易在并行计算机上运行，因此可以期待基于进化算法的决策树的运算能力有较大的提高。此外，由于进化算法为随机算法，它可以在任何时候对同一数据集合产生不同的决策树，通过利用投票（Vote）的方法可以得到理想的分类器。因为总体分类器比单个分类器的错误率低，所以基于进化算法的决策树在减小错误率方面也有优势。同样，将决策树运用于进化计算也能够提高进化算法的性能。例如，利用决策树为进化算法播种具有较好质量的初始种群能提高进化算法的搜索能力并缩短运行时间。将遗传算法用于分类和概念学习任务比较常见，但真正将它作为一种发展决策树的实用工具的研究还比较少。A. Papagelis 等将遗传算法直接用于产生决策树。与一般遗传算法采用二进制串的形式不同，他们采用了二进制树结构来进行问题表示。当无关属性或比较强的条件相关属性存在时，遗传算法比其他的贪婪启发方式（Greedy Heuristics）具有优势。D. R. Carvalho提出了一个混合决策树和遗传算法的算法，一定程度地解决了低训练数据易于产生错误的规则的缺点。需要注意的是，遗传算法和决策树结合的缺点是计算量较大。将遗传编程用于决策树可以改进标准贪婪决策树归纳算法的一些局限性。遗传编程种群中的每个个体都可以是一个决策树。遗传编程中使用的函数是决策树的特性以及遗传编程中的终结集（Terminal Set）。利用遗传编程构造决策树可以取得比较好的效果，特别是发现小数据量下的最优决策树。 1.1.4决策树技术和多智能体的结合将决策树用于多智能体控制并不多见。但正由于多智能体系统的复杂性，而机器学习有潜力提供一个鲁棒性较强的机制来有效协调各智能体间的行为，因此对多智能体结合机器学习是一个很有前途的方向。近几年P. Stone 和 M. Veloso 发表了一些这方面的文章[][][]。他们提出了基于决策树 C4.5 算法中置信度（Confidence Factor）下的多智能体控制，并将此应用于机器人足球控制。 1.2寻找新的构造决策树的方法自从 Quinlan提出 ID3和 C4.5 方法后，有不少专家提出了其他构造决策树的方法，如由 Brieman 等人提出的CART 方法和由 Kass 提出的 CHAID 方法。最近，M. Ankerst等提出了基于多维可视化下的交互式的决策树构造[]。此方法在决策树构造阶段加入了专家知识，这样便于用户更深地理解产生决策树的数据及最终产生的决策树。同时此方法也显著地减小了决策树的大小。在 M. Ankerst 等提出的方法中，他们主要用两类进化算法替代了传统的贪婪搜索算法以实现数值属性的任意分割。 1.3寻找更好的简化决策树的方法简化决策树的研究工作主要有两个方面，一是对比各种不同的简化决策树方法，分析它们各自的特性、优点和缺点。另外一个就是寻找更好的与传统方法不同的简化决策树的方法，这一直是决策树技术研究