lecture 2 数据预处理-2015.pptVIP

  • 1
  • 0
  • 约5.61千字
  • 约 36页
  • 2015-08-09 发布于北京
  • 举报
lecture 2 数据预处理-2015.ppt

* Data Mining: Concepts and Techniques * 第二章: 数据预处理 为什么要进行预处理? 数据清洗 数据集成与变换 数据约简 离散化 总结 * Data Mining: Concepts and Techniques * 离散化(Discretization) 属性的三种类型: 标称性的 — 取自于无序集合(unordered set)的值 有序的(Ordinal) —取自于有序集合(ordered set)的值 连续的 — 实数 离散化: 把连续型属性的取值范围划分成区间 通过离散化减少数据集大小 为进一步分析做好准备 * Data Mining: Concepts and Techniques * 数值数据的离散化 分箱 直方图分析 聚类分析 基于熵的离散化 * Data Mining: Concepts and Techniques * 基于熵的离散化 给定一个样本集合 S, 如果用边界值T把 S划分成2个区间 S1与S2,则划分后的熵为: 选择某一边界T的准则是:它使其后划分得到的信息增益(Information Gain,见上式)最大. 上述过程递归地用于所得到的划分,直到满足某个终止条件。 实验表明这种划分方法能够约简数据集并提高分类精度。 * Data Mining: Concepts and Techniques * 第二章: 数据预处理 为什么要进行预处理? 数据清洗 数据集成与变换 数据约简 离散化 总结 * Data Mining: Concepts and Techniques * 总结 数据预处理是数据仓库与数据挖掘中的最主要问题之一 数据预处理包括 数据清洗与数据集成 数据规约与特征选择 离散化 虽然在这方面已经开发了大量的技术,但仍然有许多问题值得研究。 Data Mining: Concepts and Techniques Data Mining: Concepts and Techniques * Data Mining: Concepts and Techniques * 数据挖掘: 概念与技术 王家兵 华南理工大学计算机科学与工程学院 E-mail: jbwang@scut.edu.cn * Data Mining: Concepts and Techniques * Lecture 2: 数据预处理 为什么要进行预处理? 数据清洗 数据集成与变换 数据约简 离散化 总结 * Data Mining: Concepts and Techniques * 为何要进行预处理? 现实世界的数据很“脏” 不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据 如, occupation=“ ” 含噪声的: 包含错误或存在孤立点 如, Salary=“-10” 不一致的: 在名称或代码之间存在着差异 如, Age=“42” Birthday=“03/07/1997” 如, 原来排序 “1,2,3”, 现在排序 “A, B, C” * Data Mining: Concepts and Techniques * 数据为何会变脏? 不完整性来源于 收集数据时,在不同的阶段具有不同的考虑 人/硬件/软件的问题等 噪声数据来源于 收集阶段 数据传输阶段等 不一致性来源于 不同的数据源 功能依赖冲突(Functional dependency violation) * Data Mining: Concepts and Techniques * 数据预处理的主要任务 数据清洗(Data cleaning) 填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题 数据集成(Data integration) 对多个数据库,数据立方或文件进行集成 数据变换(Data transformation) 规范化与聚集(Normalization and aggregation) 数据约简(Data reduction) 得到数据集的压缩表示,它小的多,但能够产生同样的(或几乎同样的)分析结果 数据离散化(Data discretization) 特别对数字值而言非常重要 * Data Mining: Concepts and Techniques * 第二章: 数据预处理 为什么要进行预处理? 数据清洗 数据集成与变换 数据约简 离散化 总结 * Data Mining: Concepts and Techniques * 数据清洗 重要性 “数据清洗是数据仓库的三个主要问题之一”—Ralph Kimball “数据清洗是数据仓库的首要问题”—DCI survey 数据清洗的任务 填充遗失数据 辨识孤立点、平滑噪声数据 修正不一致性数据

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档