数据挖掘概念和技术原书第2版第2章数据预处理课件.pptVIP

  • 3
  • 0
  • 约6.43千字
  • 约 60页
  • 2017-08-20 发布于河南
  • 举报

数据挖掘概念和技术原书第2版第2章数据预处理课件.ppt

数据挖掘概念和技术原书第2版第2章数据预处理课件

数据预处理;为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成;现实世界的数据是“脏的”——数据多了,什么问题都会出现 不完整 缺少数据值;缺乏某些重要属性;仅包含聚集数据; e.g., occupation= 有噪声 包含错误或者孤立点 e.g. Salary = -10 数据不一致 e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性;不完整数据的成因 数据收集的时候就缺乏合适的值 数据收集时和数据分析时的不同考虑因素 人为/硬件/软件 问题 噪声数据(不正确的值)的成因 数据收集工具的问题 数据输入时的 人为/计算机 错误 数据传输中产生的错误 数据不一致性的成因 不同的数据源 违反了函数依赖性;没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高???量的数据 e.g. 重复值或者空缺值将会产生不正确的或者令人误导的统计 数据仓库需要对高质量的数据进行一致地集成 数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤;一个广为认可的多维度量观点: 精确度 完整度 一致性 合乎时机 可信度 附加价值 可解释性 跟数据本身的含义相关的 内在的、上下文的、表象的以及可访问性;数据清理 填写空缺的值,平滑噪声数据

文档评论(0)

1亿VIP精品文档

相关文档