DATA MINING(CH11).ppt

DATA MINING(CH11).ppt

第11章 数据预处理与可视化技术 《数据挖掘与知识发现》(第2版) 吉林大学计算机科学与技术学院 李雄飞 数据预处理与可视化技术 数据预处理是数据分析、数据挖掘等工作的前期准备,用以确定数据挖掘的类型,提高挖掘质量。融合数据挖掘和数据可视化两个学科,可以用直观、有效的方式来解释和评估挖掘对象、挖掘任务以及挖掘结果。本章介绍如下几个方面的内容: 数据清理 数据集成与转换 数据归约与浓缩 概念分层 过程可视化 数据可视化 结果可视化 数据清理 数据清理(Data Cleaning)能够填补空缺数据,平滑噪声,发现孤立点,纠正不一致的数据,进而改善数据质量,提高数据挖掘的精度和性能。 一、 填补空缺值 海量数据集中可能会“遗漏”某些数据,要分析这种不完整的数据,就必须通过推导来填充这些空缺值。 必须权衡估计数据带来的风险和数据空缺造成的误解。 缺省值处理方法: 1. 忽略元组:如果一个元组中空缺值的属性较多,可以忽略这个元组。 2. 人工填写空缺值:这种方法很费时。 3. 用全局常量填充空缺值:用同一个常数(如“Unknown”或-∞)替换空缺的属性值。 4. 用属性的平均值填充空缺值 5. 用同类样本的平均值填补空缺值 6. 用最可能的值填充空缺值:用回归分析或决策树归纳等方法确定最有可能的值。 7. 用

文档评论(0)

1亿VIP精品文档

相关文档