第2章数据预处理资料.ppt

第3章 数据预处理 3.1 预处理的必要性 目前,数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究。事实上,数据预处理对数据挖掘十分重要,一些成熟的算法对其处理的数据集合都有一定的要求:比如数据的完整性好,冗余性小,属性的相关性小等。 数据预处理是数据挖掘的重要一环,而且必不可少。要使挖掘算法挖掘出有效的知识,必须为其提供干净,准确,简洁的数据。然而,实际应用系统中收集的数据通常是“脏”数据 1、杂乱性 如性别: A数据库 male=1 , female=2 B数据库 male=‘男’ ,female=‘女’ C数据库 male=‘M’ , female=‘F’ 2、重复性 同一客观事物在数据库中存在两个以上相同的物理描述 假设某周刊有100000个订户,邮件列表中0.1%的记录是重复的,主要是一个名字有不同的写法 Jon Doe 和John Doe 因此,每周需要印刷和邮寄100份额外的刊物,假设每周的邮寄和印刷费用是两圆,公司每年将浪费10000元以上 3、不完整性 由于实

文档评论(0)

1亿VIP精品文档

相关文档