数据清洗和数据预处理.ppt

数据清洗和数据预处理 ;教学目标;教学要求;为什么要预处理数据?;原始数据中存在的问题; 数据预处理的方法;数据清洗;数据清洗——处理空缺值;数据清洗——处理空缺值;数据清洗——噪声数据的处理;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;熵——信息的度量(利用概率来度量);熵——信息的度量; 例子 硬币下落:硬币下落可能有正反两种状态,出现这两种状态的概率都是1/2。 如果需要消除其不确定性,则就需要信息量:H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)] =-(-0.5-0.5) =1比特为1比特的信息。 例2:张三到4000人的企业去找李四。当企业人事部门告诉张三:“李四是第四车间的”,而第四车间有1000人,如果第四车间的人告诉张三,李四在第三班,第三班共有125位员工,计算张三所获得的信息量?;噪声数据的处理——分箱;噪声数据的处理——平滑处理;噪声数据的处理——聚类;噪声数据的处理——聚类;噪声数据的处理——回归;噪声数据的处理——回归;数据集成;数据集成——模式匹配;数据集成——数据冗余;数据集成——数据值冲突;数据变换——平滑;数据变换——聚集;数据变换——数据概化;数据变换——规范化;最小-最大规范化;最小-最大规范化;零-均值规范化(z-s

文档评论(0)

1亿VIP精品文档

相关文档