- 3
- 0
- 约6.43千字
- 约 60页
- 2017-08-20 发布于河南
- 举报
数据挖掘概念和技术原书第2版第2章数据预处理课件
数据预处理;为什么对数据进行预处理
描述性数据汇总
数据清理
数据集成和变换
数据归约
离散化和概念分层生成;现实世界的数据是“脏的”——数据多了,什么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含聚集数据;
e.g., occupation=
有噪声
包含错误或者孤立点
e.g. Salary = -10
数据不一致
e.g., 在编码或者命名上存在差异
e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C”
e.g., 重复记录间的不一致性;不完整数据的成因
数据收集的时候就缺乏合适的值
数据收集时和数据分析时的不同考虑因素
人为/硬件/软件 问题
噪声数据(不正确的值)的成因
数据收集工具的问题
数据输入时的 人为/计算机 错误
数据传输中产生的错误
数据不一致性的成因
不同的数据源
违反了函数依赖性;没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高???量的数据
e.g. 重复值或者空缺值将会产生不正确的或者令人误导的统计
数据仓库需要对高质量的数据进行一致地集成
数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤;一个广为认可的多维度量观点:
精确度
完整度
一致性
合乎时机
可信度
附加价值
可解释性
跟数据本身的含义相关的
内在的、上下文的、表象的以及可访问性;数据清理
填写空缺的值,平滑噪声数据
您可能关注的文档
最近下载
- 颈动脉狭窄介入治疗操作规范(专家共识).pdf VIP
- 小学五年级下册数学应用题100道(含答案).docx
- 压缩空气储能电站浅埋人工储气洞库设计基本理念和方法.pdf VIP
- 西门子光子双源ct培训课件.ppt VIP
- 单相桥式整流电路教案.doc VIP
- 2025年湖北省中考语文试题(含答案及解析).pdf
- 云南省楚雄彝族自治州2024-2025学年五年级下册期末考试语文试卷(有答案).pdf VIP
- 给排水国标图集-04S516:混凝土排水管道基础及接口.pdf VIP
- 文华期货软件公式指标文华财经指标公式源码期货指标自动提示买卖点的期货软件.doc VIP
- 10 荀径-列控中心基本原理和功能.ppt
原创力文档

文档评论(0)