CHAPTER2-数解析据预处理
数据挖掘:概念与技术 第2章: 数据预处理 为什么预处理数据? 数据清理 数据集成 数据归约 离散化和概念分层产生 小结 为什么数据预处理? 现实世界中的数据是脏的 不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据 例, occupation=“” 噪音: 包含错误或孤立点 例, Salary=“-10” 不一致: 编码或名字存在差异 例, Age=“42” Birthday=“03/07/2010” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异 数据为什么脏? 不完全数据源于 数据收集时未包含 数据收集和数据分析时的不同考虑. 人/硬件/软件问题 噪音数据源于 收集 录入 变换 不一致数据源于 不同的数据源 违反函数依赖 为什么数据预处理是重要的? 没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据 例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成 数据质量:一个多维视角 一种广泛接受的多角度: 正确性(Accuracy) 完全性(Completeness) 一致性(Consistency) 合时(Timeliness):timely update? 可信性(Believability) 可解释性(Interpretability) 可存取性(Ac
您可能关注的文档
- 第12章节 公共部门人力资源管理.ppt
- 第12章节 调血脂药和抗动药脉粥样硬化.ppt
- 第12章节-核酸类药物.ppt
- 第12章节_简单线性回归.ppt
- 第13章节 博弈论与竞争策略.ppt
- 第13章节 Java Web开发常用功能.ppt
- 第13章节 柠檬酸发酵.ppt
- 第13章节 羧酸衍生物-1.ppt
- 第13章节 物质代谢的联系及其调控.ppt
- 第13章节-国民收入决定理论——收入-支出模型.ppt
- 2026年中国三相电能计量箱市场调查研究报告.docx
- 2026年中国八位半数字万用表市场调查研究报告.docx
- 2026年及未来5年干装垂直玻璃幕墙项目市场数据调查、监测研究报告.docx
- 2026年中国发醇罐市场调查研究报告.docx
- 2026年及未来5年干法短切原丝项目市场数据调查、监测研究报告.docx
- 2026年中国普通型台式血压计市场调查研究报告.docx
- 2026年及未来5年无线报警定位系统项目市场数据调查、监测研究报告.docx
- 2026年及未来5年移动斗式提升机项目市场数据调查、监测研究报告.docx
- 2026年中国茉莉香精市场调查研究报告.docx
- 2026年中国平面刨市场调查研究报告.docx
最近下载
- 医药生物行业“十五五”规划纲要解读报告:以人为本,医疗健康系统性升级.pdf VIP
- 化工企业设备检修作业安全规范 AQ 3026—2026 考试试卷及答案.docx VIP
- 专题2.19相似三角形综合问题大题专题(培优强化30题)(原卷版).pdf VIP
- 美国AB变频器说明书 22F Power Flex 4m.pdf VIP
- (高清版)B/T 15831-2023 钢管脚手架扣件.pdf VIP
- 机器人视觉技术及案例应用 第6章 形态学与Blob分析.ppt VIP
- 康复技术实操考试指南与题库.docx VIP
- 中国各种食物营养成分表.doc VIP
- 中国国家标准 GB/T 17626.30-2023电磁兼容 试验和测量技术 第30部分:电能质量测量方法.pdf
- 人教版七年级英语下册Unit3 SectionA 1a-2d课件 34张.ppt VIP
原创力文档

文档评论(0)