第3章 数据预处理 3.1 预处理的必要性 目前,数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究。事实上,数据预处理对数据挖掘十分重要,一些成熟的算法对其处理的数据集合都有一定的要求:比如数据的完整性好,冗余性小,属性的相关性小等。 数据预处理是数据挖掘的重要一环,而且必不可少。要使挖掘算法挖掘出有效的知识,必须为其提供干净,准确,简洁的数据。然而,实际应用系统中收集的数据通常是“脏”数据 1、杂乱性 如性别: A数据库 male=1 , female=2 B数据库 male=‘男’ ,female=‘女’ C数据库 male=‘M’ , female=‘F’ 2、重复性 同一客观事物在数据库中存在两个以上相同的物理描述 假设某周刊有100000个订户,邮件列表中0.1%的记录是重复的,主要是一个名字有不同的写法 Jon Doe 和John Doe 因此,每周需要印刷和邮寄100份额外的刊物,假设每周的邮寄和印刷费用是两圆,公司每年将浪费10000元以上 3、不完整性 由于实
您可能关注的文档
最近下载
- 违规电气焊专项整治工作总结6篇.docx VIP
- GXH-30103011AE型便携式红外气体分析器 使用说明书.pdf VIP
- 中国卒中后抑郁障碍规范化诊疗指南.docx VIP
- 环境影响评价报告公示:年收集、贮存、转移废矿物油12000t、废铅酸蓄电池20000t项目环评报告.pdf VIP
- 幼儿园教师个人三年发展规划.docx VIP
- 乌市三模语文试卷及答案.doc VIP
- 广西柳州市2026届高三上学期第一次模拟考试物理试卷(含答案).pdf VIP
- 《世界各国民族服饰》课件.ppt VIP
- 2025年7月广东省高中学业水平合格考生物试卷真题(含答案详解).pdf VIP
- 2025会计初级试题及答案解析.doc VIP
原创力文档

文档评论(0)