CHAPTR2-数据预处理.ppt

下载文档 降价啦

0
0
约 66页
2016-12-23 发布于河南
举报
版权申诉
保障服务

CHAPTR2-数据预处理.ppt

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘：概念与技术第2章: 数据预处理为什么预处理数据? 数据清理数据集成数据归约离散化和概念分层产生小结为什么数据预处理? 现实世界中的数据是脏的不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据例, occupation=“” 噪音: 包含错误或孤立点例, Salary=“-10” 不一致: 编码或名字存在差异例, Age=“42” Birthday=“03/07/2010” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异数据为什么脏? 不完全数据源于数据收集时未包含数据收集和数据分析时的不同考虑. 人/硬件/软件问题噪音数据源于收集录入变换不一致数据源于不同的数据源违反函数依赖为什么数据预处理是重要的? 没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成数据质量：一个多维视角一种广泛接受的多角度: 正确性(Accuracy) 完全性(Completeness) 一致性(Consistency) 合时(Timeliness)：timely update? 可信性(Believability) 可解释性(Interpretability) 可存取性(Accessibility) 数据预处理的主要任务数据清理填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致数据集成多个数据库, 数据立方体, 或文件的集成数据变换规范化和聚集数据归约得到数据的归约表示, 它小得多, 但产生相同或类似的分析结果：维度规约、数值规约、数据压缩数据离散化和概念分层数据预处理的形式第2章: 数据预处理为什么预处理数据? 数据清理数据集成数据归约离散化和概念分层产生小结如何处理缺失数据? 忽略元组: 缺少类别标签时常用(假定涉及分类—不是很有效，当每个属性的缺失百分比变化大时手工填写缺失数据: 乏味+费时+不可行 ? 自动填充一个全局常量 : e.g., “unknown”, a new class?! 使用属性均值与目标元组同一类的所有样本的属性均值: 更巧妙最可能的值: 基于推理的方法，如贝叶斯公式或决策树噪音数据Noisy Data Noise: 被测量的变量的随机误差或方差不正确的属性值可能由于错误的数据收集工具数据录入问题 data entry problems 数据传输问题data transmission problems 技术限制 technology limitation 不一致的命名惯例 inconsistency in naming convention 其他需要数据清理的问题重复记录 duplicate records 数据不完整 incomplete data 不一致的数据 inconsistent data 如何处理噪音数据? 分箱Binning method: 排序数据，分布到等频/等宽的箱/桶中箱均值光滑、箱中位数光滑、箱边界光滑, etc. 聚类Clustering 检测和去除离群点/孤立点 outliers 计算机和人工检查相结合人工检查可疑值 (e.g., deal with possible outliers) 回归 Regression 回归函数拟合数据分箱：简单的离散化方法等宽度Equal-width (distance) 剖分: 分成大小相等的n个区间: 均匀网格 uniform grid 若A和B是属性的最低和最高取值, 区间宽度为: W = (B –A)/N. 孤立点可能占据重要影响 may dominate presentation 倾斜的数据处理不好. 等频剖分 (frequency) /等深equi-depth : 分成n个区间, 每一个含近似相同数目的样本 Good data scaling 类别属性可能会非常棘手. Binning Methods for Data Smoothing * Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9,