第5章_数据预处理.ppt

第5章 数据预处理 本章包括: 数据预处理基本功能 数据预处理的方法 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。 数据挖掘:为企业决策者提供重要的、有价值的信息或知识,从而为企业带来不可估量的经济效益。 数据挖掘过程一般包括数据采集、数据预处理、数据挖掘以及知识评价和呈现。 在一个完整的数据挖掘过程中,数据预处理要花费60% 左右的时间,而后的挖掘工作仅占总工作量的10% 左右。 目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等。 数据挖掘的必要性: 在海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。 数据预处理分类: 从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理、数据集成、数据变换、数据归约等4个基本功能。 在实际的数据预处理过程中, 这4种功能不一定都用到,而且,它们的使用也没有先后顺序, 某一种预处理可能先后要多次进行。 从数据预处理所采用的技术和方法来分: 基本粗集理论的简约方法; 复共线性数据预处理方法; 基

文档评论(0)

1亿VIP精品文档

相关文档