数据挖掘基础及其应用课件
第3章 数据预处理3.1 数据质量3.2 数据预处理概述3.3 数据清洗3.4 数据集成与转换3.5 数据约简本章小结3.1 数 据 质 量 在统计学实验设计或调查中,所收集的数据在质量上都达到了一定的要求,其原因有两点: 一是数据收集的目标十分明确,可在源头上对数据质量进行有效的控制; 二是数据规模小,便于操作与分析。 数据预处理技术涉及两方面的问题: 一是数据质量问题的检测和纠正; 二是使用可以容忍低质量数据的算法。3.1.1 误差与噪声 期望数据完美是不现实的,人为误差、测量设备的局限或数据收集过程的漏洞都可能导致数据质量低的问题。数据属性值乃至整个数据对象都可能会丢失。在某些情况下,会出现不真实的、重复的数据对象,即对应于单个“实际”对象出现了多个数据对象。 1.测量误差和数据收集错误 测量误差(MeasurementError)是指测量过程中出现的数据质量问题。一个常见的问题是在某种程度上记录值与实际值不同。对于连续属性,测量值与实际值的差称为误差(Error)。术语数据收集错误(DataCollectionError)是指诸如遗漏数据对象或属性值,或者包含了不恰当的其他数据对象等错误。 测量误差和数据收集错误可能是系统性的,也可能是随机性的。 2.噪声和伪像 噪声是测量误差的随机部分,涉及数值的扭曲或噪声的加入。图3-1显示被随机噪声干扰前后的时间序列,如果在时间序列上
您可能关注的文档
- 汽车维修服务接待 课件 第1章 汽车维修服务接待概述.pptx
- 汽车维修服务接待 课件 第2章 汽车维修服务接待概述.pptx
- 汽车维修服务接待 课件 第3章 汽车维修服务接待的知识储备.pptx
- 汽车维修服务接待 课件 第4章 汽车维修服务接待流程及标准规范.pptx
- 汽车维修服务接待 课件 第5章 客户沟通与接待技巧.pptx
- 数据挖掘基础及其应用 课件 第4章 分类I概念与决策树算法.pptx
- 数据挖掘基础及其应用 课件 第5章 分类Ⅱ支持向量机.pptx
- 数据挖掘基础及其应用 课件 第6章 分类Ⅲ概率分类与回归.pptx
- 数据挖掘基础及其应用 课件 第7章 关联规则Ⅰ频繁模式挖掘.pptx
- 数据挖掘基础及其应用 课件 第8章 关联规则Ⅱ关联规则挖掘.pptx
- 数据挖掘基础及其应用 课件 第9章 聚类分析Ⅰ概念与K-均值算法.pptx
- 数据挖掘基础及其应用 课件 第10章 聚类分析Ⅱ分层聚类与密度聚类.pptx
- 数据挖掘基础及其应用 课件 第2章 数据.pptx
- 数据挖掘基础及其应用 课件 第1章 绪论.pptx
- 数据挖掘基础及其应用 课件 第11章 社交网络图聚类.pptx
原创力文档

文档评论(0)