CHAPTER3-数据预处理概要
数据挖掘:概念与技术 第2章: 数据预处理 为什么预处理数据? 数据清理 数据集成 数据归约 离散化和概念分层产生 小结 为什么数据预处理? 现实世界中的数据是脏的 不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据 例, occupation=“” 噪音: 包含错误或孤立点 例, Salary=“-10” 不一致: 编码或名字存在差异 例, Age=“42” Birthday=“03/07/2010” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异 数据为什么脏? 不完全数据源于 数据收集时未包含 数据收集和数据分析时的不同考虑. 人/硬件/软件问题 噪音数据源于 收集 录入 变换 不一致数据源于 不同的数据源 违反函数依赖 为什么数据预处理是重要的? 没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据 例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成 数据质量:一个多维视角 一种广泛接受的多角度: 正确性(Accuracy) 完全性(Completeness) 一致性(Consistency) 合时(Timeliness):timely update? 可信性(Believability) 可解释性(Interpretability) 可存取性(Accessibility) 数据预处理的主要任务 数据清理 填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致 数据集成 多个数据库, 数据立方体, 或文件的集成 数据变换 规范化和聚集 数据归约 得到数据的归约表示, 它小得多, 但产生相同或类似的分析结果:维度规约、数值规约、数据压缩 数据离散化和概念分层 数据预处理的形式 第2章: 数据预处理 为什么预处理数据? 数据清理 数据集成 数据归约 离散化和概念分层产生 小结 如何处理缺失数据? 忽略元组: 缺少类别标签时常用(假定涉及分类—不是很有效,当每个属性的缺失百分比变化大时 手工填写缺失数据: 乏味+费时+不可行 ? 自动填充 一个全局常量 : e.g., “unknown”, a new class?! 使用属性均值 与目标元组同一类的所有样本的属性均值: 更巧妙 最可能的值: 基于推理的方法,如贝叶斯公式或决策树 噪音数据Noisy Data Noise: 被测量的变量的随机误差或方差 不正确的属性值可能由于 错误的数据收集工具 数据录入问题 data entry problems 数据传输问题data transmission problems 技术限制 technology limitation 不一致的命名惯例 inconsistency in naming convention 其他需要数据清理的问题 重复记录 duplicate records 数据不完整 incomplete data 不一致的数据 inconsistent data 如何处理噪音数据? 分箱Binning method: 排序数据,分布到等频/等宽的箱/桶中 箱均值光滑、箱中位数光滑、箱边界光滑, etc. 聚类Clustering 检测和去除 离群点/孤立点 outliers 计算机和人工检查相结合 人工检查可疑值 (e.g., deal with possible outliers) 回归 Regression 回归函数拟合数据 分箱:简单的离散化方法 等宽度Equal-width (distance) 剖分: 分成大小相等的n个区间: 均匀网格 uniform grid 若A和B是 属性的最低和最高取值, 区间宽度为: W = (B –A)/N. 孤立点可能占据重要影响 may dominate presentation 倾斜的数据处理不好. 等频剖分 (frequency) /等深equi-depth : 分成n个区间, 每一个含近似相同数目的样本 Good data scaling 类别属性可能会非常棘手. Binning Methods for Data Smoothing * Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9,
您可能关注的文档
- CHANEL橱窗设计——展示分析概要.ppt
- chaper1_高分子的链结构——第02讲_高分子链的结构概要.ppt
- chapter-5数据管理与数据透视表概要.ppt
- chapter10antiparasiticdrugs概要.ppt
- Chapter06-运输问题简化版2010概要.ppt
- Chapter07Numerical概要.ppt
- chapter14hormones概要.ppt
- Chapter15氧族元素概要.ppt
- Chapter12胶体化学概要.ppt
- Chapter19杂环化合物概要.ppt
- chapter3Antipyretics,analgesicsandnonsteroidalantiinflammatoryagents概要.ppt
- chapter1algae概要.ppt
- chapter4_Anti_fading_techniques概要.ppt
- Chapter4微生物反应器操作概要.ppt
- Chapter05《海洋科学》通识-海洋化学概要.ppt
- chapter11农业气象灾害及其防御概要.ppt
- Chapter3酶概要.ppt
- chapter6-2(科技文体)概要.ppt
- Chapter6炔烃和共轭烯烃概要.ppt
- chapter6thebacteriaandvirusinheritance概要.ppt
最近下载
- 2025年海兰褐蛋鸡各阶段饲养管理 .pdf VIP
- 人教版九年级上册化学1至7单元综合测试卷(含答案).pdf VIP
- 骨科、麻醉科加速康复围手术期患者慢性病管理专家共识(2025年版) .pdf
- 人教版九年级化学上册:一至六单元测试卷.docx VIP
- 安徽省宿州市十三校2026届化学高一第一学期期末教学质量检测试题含解析.doc
- 一年级语文上册识生字测试题.doc VIP
- 输血安全护理ppt完整课件.pptx VIP
- 高一数学培优复数及其运算-讲义(学生版).pdf VIP
- 幼小衔接识字PDF打印版.pdf VIP
- 深度解析(2026)《DLT 5022-2023发电厂土建结构设计规程》.pptx VIP
原创力文档

文档评论(0)