Chapter 2: Data Preprocessing Why preprocess the data?(数据预处理的必要性) Descriptive data summarization(描述性数据汇总) Data cleaning (数据清洗) Data integration and transformation(数据集成和转换) Data reduction(数据规约) Discretization and concept hierarchy generation(数值离散化和概念分层) Summary(小结) 第二章 数据预处理 2.1 预处理的必要性 目前,数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究。事实上,数据预处理对数据挖掘十分重要,一些成熟的算法对其处理的数据集合都有一定的要求:比如数据的完整性好,冗余性小,属性的相关性小等。 数据预处理是数据挖掘的重要一环,而且必不可少。要使挖掘算法挖掘出有效的知识,必须为其提供干净,准确,简洁的数据。然而,实际应用系统中收集的数据通常是“脏”数据 1、杂乱性 如性别: A数据库 male=1 , female=2 B数据
原创力文档

文档评论(0)