决策树在数据预处理中的利用研究.pdfVIP

  • 14
  • 0
  • 约4.31万字
  • 约 40页
  • 2018-06-07 发布于贵州
  • 举报
决策树在数据预处理中的利用研究

摘要 南JF大学组合数学研究中心文硕频 摘 要 数据挖掘是数据库、人工智能、机器学习等领域相结合而产生的一个新兴的、具有广 泛应用前景的研宄领域。数据挖捕{就是从大量的历史数据中发现绝含的、有潜在应用价值,{: 最终能被人理解的知识的过程。 在决策领域,人们所面对的数据往往具有不确定性和不完整性,从这类数据中发现知 识是一个非常困难的问题。数据预处理技术可以改进数据的质量。从而有助于提高其后的挖 捌过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,冈此数据预处理是知识 发现过程的重要的步骤, 目前,数据挖掘的大量研究工作集中在挖掘算法上,而对预处理环节重视不够。本文 从数据挖掘的基本概念入手,结合粗糙集的基本理论,利用决策树的理论和方法,从多方面 研究了数据挖掘过程中数据预处理的问题: 1)不完全决策表的数据填充和规则提取。不完全信息系统中遗失数据的补充和规则的 提取,一直是数据挖掘技术面临的重要问题。本文给出了‘种基于决策树来求解此 问题的算法。对于给定的不完全决策表,该算法应用改进的ID3算法来构造决策树, 在构造决策树的过程中对遗失值进行补充。对于不能在决策树上补充的遗失值,定 义了一种相关对象之间的相似度来填充。从构造的决策}对上提取规则。本算法简单, 易于操作,我们通过实例详细说明了该算法。 2)具有连续属性的决策表的属性离散化。由于粗糙集理论研究的对象只能是离散值对 象.对于值域是连续的数据库常常需要进行离散化处理。本文结台粗糙集理论,给 出了一个基于决策讨的连续属性的离散化方法。此算法可以有效的从候选割集中找 到较优的子割集,实现连续属性的离散化。从决策树上可以看到离散化的过程,易 于对不满意割的修改。文中我们通过详细的刨子说明了该算法。 关键词:数据挖掘数据预处理决策树决策表数据填充离散化 Abstract 南开大学组台数学研究中心文硕频 Abstract Data isafieldof interest and Mining increasing database,artificial combining intelligence machine Data isthe of learningmining processdiscoveringnon·tdvial,previouslyunknown, usefulandunderstandableinformationfrom datasets potentially large Datafromthedatabaseofdecisiondomainareoftenuncertainand incomplete,andresulting in of fromthiskindofdataData difficulty discovery can knowledge preprocessingtechnique the of to the and ofthe of improvequalitydata,thereby helpimproveprecisioncapabilityprocess data Decisionof

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档