- 6
- 0
- 约1.4万字
- 约 66页
- 2017-02-16 发布于湖北
- 举报
数据挖掘:概念与技术 第2章: 数据预处理 为什么预处理数据? 数据清理 数据集成 数据归约 离散化和概念分层产生 小结 为什么数据预处理? 现实世界中的数据是脏的 不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据 例, occupation=“” 噪音: 包含错误或孤立点 例, Salary=“-10” 不一致: 编码或名字存在差异 例, Age=“42” Birthday=“03/07/2010” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异 数据为什么脏? 不完全数据源于 数据收集时未包含 数据收集和数据分析时的不同考虑. 人/硬件/软件问题 噪音数据源于 收集 录入 变换 不一致数据源于 不同的数据源 违反函数依赖 为什么数据预处理是重要的? 没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据 例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成 数据质量:一个多维视角 一种广泛接受的多角度: 正确性(Accuracy) 完全性(Completeness) 一致性(Consistency) 合时(Timeliness):timely update? 可信性(Believability) 可解释性(Interpretability) 可存取性(Ac
您可能关注的文档
最近下载
- 2025年党的二十届四 中全会知识学习测试竞赛试题(附答案)供参考.docx VIP
- 12K101-2 屋顶风机安装建筑工程图集.pdf VIP
- 股市主力操盘盘 口摩斯密码(原创内容,侵权必究).pptx
- 5_励磁变护整定计算.ppt VIP
- 帕金森病(颤拘病)中医临床诊疗专家共识.pptx
- 欧盟新版《药物警戒实践指南》:第四单元- - (GVP)药物安全审计(第1版).pdf VIP
- 2015年国际商务单证员(单证操作与缮制)真题试卷(题后含答案及解析).pdf VIP
- Peabody运动发育量表.pdf VIP
- 江苏省苏州市2022-2023学年高一下学期期中数学试题(含答案解析).docx
- 广州市律师协会申请律师执业人员面试考核参考题库.docx VIP
原创力文档

文档评论(0)