第三章 数据预处理09年.pptVIP

  • 2
  • 0
  • 约1.52千字
  • 约 20页
  • 2017-08-30 发布于江苏
  • 举报
第三章 数据预处理 3.1 数据挖掘概述 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。 1. 数据挖掘与数据仓库 大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。 数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。 2. 数据挖掘过程 确定挖掘对象 准备数据 建立模型 数据挖掘 结果分析 知识应用阶段 为什么要预处理数据? 现实世界的数据是“肮脏的”——数据多了,什么问题都会出现 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成 3.1 数据预处理的主要任务 一、 数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 1.消除不完整性 数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据应为得不到重视而没有被输入 空缺值要经过推断而补上 人

文档评论(0)

1亿VIP精品文档

相关文档