数据预处理-mclab.pdf

数据预处理-mclab

数据预处理 电子信息与通信学院冯镔 fengbin@mail.hust.edu.cn 1 什么是数据 数据预处理的重要性 数据清洗 数据集成与转换 数据消减 相似度和相异度 2 什么是数据 数据预处理的重要性 数据清洗 数据集成与转换 数据消减 相似度和相异度 3 什么是数据 数据是构成数据集的基本成分 Attributes 数据用一组刻画对象基 本特征的属性描述 Tid Refund Marital Taxable Status Income Cheat 属性描述数据的性质或 1 Yes Single 125K No 特性 2 No Married 100K No 眼睛的颜色,温度等 3 No Single 70K No 4 Yes Married 120K No 属性的集合描述了一 5 No Divorced 95K Yes 个数据对象 Objects 6 No Married 60K No 7 Yes Divorced 220K No 数据对象又称作记录、 8 No Single 85K Yes 实体、观测等 9 No Married 75K No 10 No Single 90K Yes 10 4 属性 属性的值是赋予给属性的数或符号 属性和属性的值有什么区别? 同样一个属性可以映射到不同的属性值上 高度可以用米和厘米来衡量 不同的属性可以映射到同样的一组值上 ID号和年龄都可以用整数表示 但是属性值的性质可以不同 ID的范围没有限制,而年龄有最大和最小值范围 5 属性 测量属性的方式并不以一定和属性的性质 相吻合 5

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档