数据仓库与数据挖掘技术 第6章 数据预处理技术.pptVIP

  • 32
  • 0
  • 约1万字
  • 约 62页
  • 2017-08-31 发布于安徽
  • 举报

数据仓库与数据挖掘技术 第6章 数据预处理技术.ppt

第6章 数据预处理技术 主讲人:孙水华 副教授 信息科学与工程学院 目 录 数据预处理概述 数据清理 数据集成 数据变换 数据归约 小 结 6.6 小结 1)最小-最大规范化。假定mA和MA分别为属性A的最小值和最大值。最小-最大规范化通过计算 将A的值v映射到区间[new_mA,new_MA]中的v’。 最小-最大规范化对原始数据进行线性变换,保持原始数据值之间的联系。如果今后的输入落在A的原始数据值域之外,该方法将面临“越界”错误。 2)z-score规范化(零均值规范化)。把属性A的值v基于A的均值和标准差规范化为v’,通过下列公式计算: 其中,和σA分别为属性A的均值和标准差。当属性A的实际最大和最小值未知,或离群点左右了最大-最小规范化时,该方法是有用的。 假定属性平均家庭月总收入的均值和标准差分别为9000元和2400元,值12600元使用z-score规范化转换为: 3)小数定标规范化。通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值v规范化为v’,由下式计算: 其中,j是使得Max(|v’|)1的最小整数。 例如,假定A的取值是-975~923。A的最大绝对值为975。使用小数定标规范化,用1 000(即j=3)除每个值,这样,-975规范化为-0.975,而923被规范化为0.923。 规范化将原来的

文档评论(0)

1亿VIP精品文档

相关文档