- 2
- 0
- 约1.52千字
- 约 20页
- 2017-08-30 发布于江苏
- 举报
第三章 数据预处理 3.1 数据挖掘概述 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。 1. 数据挖掘与数据仓库 大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。 数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。 2. 数据挖掘过程 确定挖掘对象 准备数据 建立模型 数据挖掘 结果分析 知识应用阶段 为什么要预处理数据? 现实世界的数据是“肮脏的”——数据多了,什么问题都会出现 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据 含噪声的:包含错误或者“孤立点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成 3.1 数据预处理的主要任务 一、 数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 1.消除不完整性 数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据应为得不到重视而没有被输入 空缺值要经过推断而补上 人
您可能关注的文档
最近下载
- 南京工程学院大物试卷.doc VIP
- 工伤认定知识培训(48P).pptx VIP
- 城市地下空间土地使用权的价格评估.PDF VIP
- (东莞自主招生考试)2024-2025松莞物理试题.pdf VIP
- CN108359966A-一种半置换半还原型化学镀金液及其应用方法-公开.pdf VIP
- 现代分离方法与技术--9.3化学修饰电极分离富集法(1).ppt VIP
- 商业房地产楼层效用系数指引.docx VIP
- PDATR29(2012年)清洁验证中英对照版.pdf VIP
- 高职劳动教育(金华职业技术学院)超星尔雅学习通网课章节测试答案.doc VIP
- YGWS系列水冷螺杆式冷水机组.pdf VIP
原创力文档

文档评论(0)