数据挖掘概念与设计
第三章 数据预处理
3.1 数据预处理
3.2 数据清理
3.3 数据集成
3.4 数据规约
3.5 数据变换与数据离散化
3.6小结
第三章 数据预处理
3.3.1 为什么要对数据预处理
低质量的数据将导致低质量的挖掘结果
准确性
完整性
一致性
时效性
可信性
可解释性
3.1 数据预处理
高质量数据
3.1.2 数据处理的主要任务
数据清理
数据集成
数据归约
数据变换
3.1 数据预处理
现实世界的的数据一般是不完整的,有噪声的和不一致性的。数据清理试图填充缺失值,光滑噪声、识别离群点、纠正数据中的不一致。
3.2.1 缺失值
1)忽略元组:缺少类标号时通常这么做。但是忽略的元组其他属性也不能用,即便是有用的。
2)人工填写:该方法很费事费时,数据集很大、缺失值很多时可能行不通。
3)使用一个全局常量填充缺失值:将缺失值的属性用同一个常量替换。(方法简单但不可靠)
4)使用属性的中心度量(均值、中位数)填写缺失值:对于正常的(对称的)数据分布,可以使用均值;对于倾斜数据(非对称)应该使用中位数。
5)使用与给定元组同一类的所有样本的属性均值或中位数: 利用另外一个属性分类数据,计算缺失值的属性值该是多少(均值或中位数)。
6)使用最可能的值填充:利用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定。
3.2 数据清理
3.2.2 噪声数据
噪声:被测量的变量的随机误差或方差。
1)分箱:排序后的数据按等频(每个箱几个值)分箱,
? ??? ? 然后:? ??? 用箱均值光滑:箱中每个值都被替换为箱中的均值。
? ??? 用箱中位数光滑:箱中的每一个只都被替换为该箱的中位数。
? ??? 用箱边界光滑:给定箱中的最大和最小值同样被视为箱边界, 箱中每个值都被替换为最接近的边界值。
2)回归:可以用一个函数拟合数据来光滑数据。
3)离群点分析:通过如聚类来检测利群点。
3.2 数据清理
3.2.3 数据清理作为一个过程
数据清理的第一步是偏差检测。导致偏差的因素很多,认为输入错误、有意错误、数据退化(过时数据)、编码不一致、设备错误、系统错误。
如何进行偏差检测?
??? ? 使用任何关于数据性质的知识: 元数据(主要是描述数据属性(property)的信息)、数据的基本统计描述(均值、中位数、众数、方差、标准差等)、唯一性规则、连续性规则、空值规则。
3.2 数据清理
数据挖掘经常需要数据集成——合并来自多个数据存储的数据。
3.3.1 实体识别问题
模式集成和对象匹配可能需要技巧,例如如何让计算机识别customer_id和另外一个数据库的cust_number是同一属性?—— 利用元数据,每个属性的元数据包括名字、含义、数据类型和属性的值的允许范围,以及处理空值的规则。这些元数据可以用来帮助避免模式集成的错误,还有助于变化数据
3.3 数据集成
3.3.2 冗余和相关分析
一个属性如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的;属性或维命名的不一致也可能导致结果数据集的冗余。
1.标称数据的卡方相关检验
2.数值数据的相关系数
3.数值数据的协方差
3.3 数据集成
1.标称数据的卡方相关检验
假设A有c个不同的值,a1, a2,….ac. B有r个不同的值,b1,b2,…br.
则包含属性A和属性B的元组可以使用一个列联表来表示,其中A属性的c个不同值构成表的列,B属性的r个不同值构成表的行。
令(Ai, Bj)表示属性A取ai而属性B取bj的联合事件,即(A=ai, B=bj).
3.3 数据集成
在表中每一个可能的(Ai, Bj)联合事件都有一个单元。卡方值的公式是:
其中,oij表示观察到的(Ai, Bj)联合事件的频率(实际次数)。而eij表示(Ai,Bj)事件的期望频率,计算公式是:
其中,n是数据元组的个数。
卡方统计检验假定属性A和属性B是互相独立的,即这两个属性之间没有关联。基于显著性水平,自由度是(r-1)*(c-1)。如果假设被拒绝,则A和B统计相关。
3.1
3.2
假设调查了1500个人,按性别分成男和女。每个人投票是否喜欢阅读小说。这样
原创力文档

文档评论(0)