CHAPTER3-数据预处理精编.pptVIP

  • 11
  • 0
  • 约9.76千字
  • 约 57页
  • 2016-08-05 发布于湖北
  • 举报
费高雷 通信与信息工程学院 2015年春季 第3章 数据预处理 2 第3章: 数据预处理 数据预处理:概述 数据清理 数据集成 数据归约 数据变换和数据离散化 小结 3 数据质量:为什么要对数据预处理? 数据质量的评价: 多维角度 准确性: correct or wrong, accurate or not 完整性: not recorded, unavailable, … 一致性: some modified but some not, dangling, … 时效性: 及时更新的? 可信性: 反映有多少数据是用户信赖的? 可解释性: 反映数据是否容易理解? 4 数据预处理的主要任务 数据清理 填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据不一致 数据集成 多个数据库, 数据立方体, 或文件的集成 数据归约 得到数据集的简化,它小得多,但能够产生同样的分析结果 数据变换 规范化 数据离散化和概念分层产生 5 第2章: 数据预处理 数据预处理:概述 数据清理 数据集成 数据归约 数据变换和数据离散化 小结 6 数据清理 现实世界的数据是脏:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误 数据缺失:缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据 e.g., 职业=“ ” (missing data) 噪声:包含错误或孤立点 e.g., Salary=“?10” (an error) 不一致:编码或名字存在差异, e.g., Age=“42”, Birthday=“03/07/2010” 以前的等级 “1, 2, 3”, 现在等级 “A, B, C” 重复记录间的差异 人为有意的(e.g.,默认值) Jan. 1 as everyone’s birthday? 7 如何处理缺失数据? 忽略元组: 缺少类别标签时常用(假定涉及分类—不是很有效,当每个属性的缺失百分比变化大时 手工填写缺失数据: 乏味+费时+不可行 ? 自动填充(采用一些规则) 一个全局常量 : e.g., “unknown”, a new class?! 使用属性的中心度量(如均值或中位数) 与给定元组同一类的所有样本的属性均值: 更巧妙 最可能的值: 基于推理的方法,如回归、贝叶斯公式或决策树 8 噪声数据 噪声: 被测量的变量的随机误差 不正确的属性值可能由于 错误的数据收集工具 数据录入问题 数据传输问题 技术限制 不一致的命名惯例 其他需要数据清理的问题 重复记录 数据不完整 不一致的数据 9 如何处理噪音数据? 分箱: 排序数据,分布到等频/等宽的箱/桶中 箱均值光滑、箱中位数光滑、箱边界光滑, etc. 聚类 检测和去除 离群点/孤立点 计算机和人工检查相结合 人工检查可疑值 (e.g., deal with possible outliers) 回归 回归函数拟合数据 10 分箱:简单的离散化方法 等宽度剖分: 分成大小相等的n个区间: 均匀网格 若A和B是 属性的最低和最高取值, 区间宽度为: W = (B –A)/N. 孤立点可能占据重要影响 倾斜的数据处理不好 等频剖分/等深: 分成n个区间, 每一个含近似相同数目的样本 Good data scaling 类别属性可能会非常棘手. 11 Binning Methods for Data Smoothing * Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34 12 聚类分析 13 Regression x y y = x + 1 X1 Y1 Y1’ 14 数据清理作为一个过程 数据偏差检测 使用元数据(数据性质的知识)(e.g.,定义域, 每个属性可接受值, 统计分布,IQR等) 检查字段过载 :新属性的定义挤进已经定义的属性的未使用部分

文档评论(0)

1亿VIP精品文档

相关文档