- 1、本文档共66页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘:概念与技术 第2章: 数据预处理 为什么预处理数据? 数据清理 数据集成 数据归约 离散化和概念分层产生 小结 为什么数据预处理? 现实世界中的数据是脏的 不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据 例, occupation=“” 噪音: 包含错误或孤立点 例, Salary=“-10” 不一致: 编码或名字存在差异 例, Age=“42” Birthday=“03/07/2010” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异 数据为什么脏? 不完全数据源于 数据收集时未包含 数据收集和数据分析时的不同考虑. 人/硬件/软件问题 噪音数据源于 收集 录入 变换 不一致数据源于 不同的数据源 违反函数依赖 为什么数据预处理是重要的? 没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据 例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成 数据质量:一个多维视角 一种广泛接受的多角度: 正确性(Accuracy) 完全性(Completeness) 一致性(Consistency) 合时(Timeliness):timely update? 可信性(Believability) 可解释性(Interpretability) 可存取性(Accessibility) 数据预处理的主要任务 数据清理 填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致 数据集成 多个数据库, 数据立方体, 或文件的集成 数据变换 规范化和聚集 数据归约 得到数据的归约表示, 它小得多, 但产生相同或类似的分析结果:维度规约、数值规约、数据压缩 数据离散化和概念分层 数据预处理的形式 第2章: 数据预处理 为什么预处理数据? 数据清理 数据集成 数据归约 离散化和概念分层产生 小结 如何处理缺失数据? 忽略元组: 缺少类别标签时常用(假定涉及分类—不是很有效,当每个属性的缺失百分比变化大时 手工填写缺失数据: 乏味+费时+不可行 ? 自动填充 一个全局常量 : e.g., “unknown”, a new class?! 使用属性均值 与目标元组同一类的所有样本的属性均值: 更巧妙 最可能的值: 基于推理的方法,如贝叶斯公式或决策树 噪音数据Noisy Data Noise: 被测量的变量的随机误差或方差 不正确的属性值可能由于 错误的数据收集工具 数据录入问题 data entry problems 数据传输问题data transmission problems 技术限制 technology limitation 不一致的命名惯例 inconsistency in naming convention 其他需要数据清理的问题 重复记录 duplicate records 数据不完整 incomplete data 不一致的数据 inconsistent data 如何处理噪音数据? 分箱Binning method: 排序数据,分布到等频/等宽的箱/桶中 箱均值光滑、箱中位数光滑、箱边界光滑, etc. 聚类Clustering 检测和去除 离群点/孤立点 outliers 计算机和人工检查相结合 人工检查可疑值 (e.g., deal with possible outliers) 回归 Regression 回归函数拟合数据 分箱:简单的离散化方法 等宽度Equal-width (distance) 剖分: 分成大小相等的n个区间: 均匀网格 uniform grid 若A和B是 属性的最低和最高取值, 区间宽度为: W = (B –A)/N. 孤立点可能占据重要影响 may dominate presentation 倾斜的数据处理不好. 等频剖分 (frequency) /等深equi-depth : 分成n个区间, 每一个含近似相同数目的样本 Good data scaling 类别属性可能会非常棘手. Binning Methods for Data Smoothing * Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9,
文档评论(0)