- 31
- 0
- 约 62页
- 2017-08-22 发布于湖北
- 举报
数据仓库与数据挖掘技术第6章数据预处理技术
1)最小-最大规范化。假定mA和MA分别为属性A的最小值和最大值。最小-最大规范化通过计算 将A的值v映射到区间[new_mA,new_MA]中的v’。 最小-最大规范化对原始数据进行线性变换,保持原始数据值之间的联系。如果今后的输入落在A的原始数据值域之外,该方法将面临“越界”错误。 * 2)z-score规范化(零均值规范化)。把属性A的值v基于A的均值和标准差规范化为v’,通过下列公式计算: 其中,和σA分别为属性A的均值和标准差。当属性A的实际最大和最小值未知,或离群点左右了最大-最小规范化时,该方法是有用的。 假定属性平均家庭月总收入的均值和标准差分别为9000元和2400元,值12600元使用z-score规范化转换为: * 3)小数定标规范化。通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值v规范化为v’,由下式计算: 其中,j是使得Max(|v’|)1的最小整数。 例如,假定A的取值是-975~923。A的最大绝对值为975。使用小数定标规范化,用1 000(即j=3)除每个值,这样,-975规范化为-0.975,而923被规范化为0.923。 规范化将原来的数据改变,特别是上面的后两种方法。有必要保留规范化参数(如均值和标准差,如果使用z-score规范化),以便将来的数据可以用一致的方式规范化。 * (5)属性构造
原创力文档

文档评论(0)