- 12
- 0
- 约7.45万字
- 约 67页
- 2015-12-23 发布于四川
- 举报
数据挖掘中决策分类算法的研究
摘要
数据挖掘作为一个应用非常广泛的新兴领域,有很多值得深入研
究的问题。分类作为数据挖掘的重要组成部分,更是人们讨论研究的
焦点。其中决策树分类算法因其效率较高、结构简单、通俗易懂以及
分类精度高等特点广受人们青睐。
本文在学习和分析现有数据挖掘理论的基础上,重点研究决策树
分类中C4.5算法。主要内容:概述数据挖掘技术、详述分类与决策
树技术、详细介绍C4.5算法、改进C4.5算法并将其应用到实例中去。
本文的创新点是对C4.5算法进行改进,并应用到作为商业银行
决策助手的实际应用中去。主要思路是:针对C4.5算法运行过程中
需要进行多次扫描,导致效率不高的缺陷进行改进。共总结提炼出两
种改进方式:一是针对类别属性只有正例集和反例集两种的特殊数据
集,结合高等数学中泰勒公式和信息增益率的计算特点,提出对属性
判别能力度量计算方式进行改进,优化其中的对数运算,提升运行效
率;二是对连续属性的处理上的改进,现有的C4.5算法对连续属性
处理,是通过将其离散化、排序后,比较所有划分点的信息增益率,
从而选择分裂属性,改进算法提出寻找
原创力文档

文档评论(0)