CHAPTER3-数据预处理试题.pptVIP

  • 6
  • 0
  • 约1.4万字
  • 约 66页
  • 2017-02-16 发布于湖北
  • 举报
数据挖掘:概念与技术 第2章: 数据预处理 为什么预处理数据? 数据清理 数据集成 数据归约 离散化和概念分层产生 小结 为什么数据预处理? 现实世界中的数据是脏的 不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据 例, occupation=“” 噪音: 包含错误或孤立点 例, Salary=“-10” 不一致: 编码或名字存在差异 例, Age=“42” Birthday=“03/07/2010” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异 数据为什么脏? 不完全数据源于 数据收集时未包含 数据收集和数据分析时的不同考虑. 人/硬件/软件问题 噪音数据源于 收集 录入 变换 不一致数据源于 不同的数据源 违反函数依赖 为什么数据预处理是重要的? 没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据 例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成 数据质量:一个多维视角 一种广泛接受的多角度: 正确性(Accuracy) 完全性(Completeness) 一致性(Consistency) 合时(Timeliness):timely update? 可信性(Believability) 可解释性(Interpretability) 可存取性(Ac

文档评论(0)

1亿VIP精品文档

相关文档