决策树在数据预处理中的利用研究.pdfVIP

下载本文档

14
0
约4.31万字
约 40页
2018-06-07 发布于贵州
举报

决策树在数据预处理中的利用研究.pdf

决策树在数据预处理中的利用研究

摘要南JF大学组合数学研究中心文硕频摘要数据挖掘是数据库、人工智能、机器学习等领域相结合而产生的一个新兴的、具有广泛应用前景的研宄领域。数据挖捕{就是从大量的历史数据中发现绝含的、有潜在应用价值，{：最终能被人理解的知识的过程。在决策领域，人们所面对的数据往往具有不确定性和不完整性，从这类数据中发现知识是一个非常困难的问题。数据预处理技术可以改进数据的质量。从而有助于提高其后的挖捌过程的精度和性能。由于高质量的决策必然依赖于高质量的数据，冈此数据预处理是知识发现过程的重要的步骤，目前，数据挖掘的大量研究工作集中在挖掘算法上，而对预处理环节重视不够。本文从数据挖掘的基本概念入手，结合粗糙集的基本理论，利用决策树的理论和方法，从多方面研究了数据挖掘过程中数据预处理的问题： 1)不完全决策表的数据填充和规则提取。不完全信息系统中遗失数据的补充和规则的提取，一直是数据挖掘技术面临的重要问题。本文给出了‘种基于决策树来求解此问题的算法。对于给定的不完全决策表，该算法应用改进的ID3算法来构造决策树，在构造决策树的过程中对遗失值进行补充。对于不能在决策树上补充的遗失值，定义了一种相关对象之间的相似度来填充。从构造的决策}对上提取规则。本算法简单，易于操作，我们通过实例详细说明了该算法。 2)具有连续属性的决策表的属性离散化。由于粗糙集理论研究的对象只能是离散值对象．对于值域是连续的数据库常常需要进行离散化处理。本文结台粗糙集理论，给出了一个基于决策讨的连续属性的离散化方法。此算法可以有效的从候选割集中找到较优的子割集，实现连续属性的离散化。从决策树上可以看到离散化的过程，易于对不满意割的修改。文中我们通过详细的刨子说明了该算法。关键词：数据挖掘数据预处理决策树决策表数据填充离散化 Abstract 南开大学组台数学研究中心文硕频 Abstract Data isafieldof interest and Mining increasing database，artificial combining intelligence machine Data isthe of learningmining processdiscoveringnon·tdvial，previouslyunknown， usefulandunderstandableinformationfrom datasets potentially large Datafromthedatabaseofdecisiondomainareoftenuncertainand incomplete，andresulting in of fromthiskindofdataData difficulty discovery can knowledge preprocessingtechnique the of to the and ofthe of improvequalitydata，thereby helpimproveprecisioncapabilityprocess data Decisionof

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

决策树在数据预处理中的利用研究.pdfVIP