CHAPTER3-数据预处理试题.pptVIP

下载本文档

6
0
约1.4万字
约 66页
2017-02-16 发布于湖北
举报

CHAPTER3-数据预处理试题.ppt

数据挖掘：概念与技术第2章: 数据预处理为什么预处理数据? 数据清理数据集成数据归约离散化和概念分层产生小结为什么数据预处理? 现实世界中的数据是脏的不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据例, occupation=“” 噪音: 包含错误或孤立点例, Salary=“-10” 不一致: 编码或名字存在差异例, Age=“42” Birthday=“03/07/2010” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异数据为什么脏? 不完全数据源于数据收集时未包含数据收集和数据分析时的不同考虑. 人/硬件/软件问题噪音数据源于收集录入变换不一致数据源于不同的数据源违反函数依赖为什么数据预处理是重要的? 没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成数据质量：一个多维视角一种广泛接受的多角度: 正确性(Accuracy) 完全性(Completeness) 一致性(Consistency) 合时(Timeliness)：timely update? 可信性(Believability) 可解释性(Interpretability) 可存取性(Ac

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CHAPTER3-数据预处理试题.pptVIP