第2数据.pptVIP

  • 16
  • 0
  • 约8.83千字
  • 约 77页
  • 2018-12-22 发布于福建
  • 举报
第2数据

(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 数据挖掘: 数据 什么是数据? 数据集可以看作数据对象的集合。数据对象用一组刻画对象基本特性的属性描述 数据对象 记录、点、向量、模式、事件、案例、样本、观测、实体. 属性 变量、特性、字段、特征、维 属性与属性值 属性的性质不必与度量它的属性值的性质相同,反之亦然 相同的属性可能有不同的属性值 例子: 高度可以用米或英尺来表示 不同的属性可能映射到相同的值的集合 例子: 雇员ID and 年龄 都用整型表示 然而,谈论平均年龄是有意义的,平均ID是无意义的 ID和年龄最大值不同 例 线段长度 知道属性的类型是重要的 它告诉我们测量值的哪些性质与属性的基本性质一致,从而使我们可以避免一些愚蠢的行为。如:计算雇员的平均ID 属性的不同类型 四种属性类型 分类的(定性的) 标称 举例: 雇员id、眼球颜色、性别 序数 举例:矿石硬度、{好,较好,最好} 数值的(定量的) 区间 举例:日历日期、摄氏、华氏温度 比率 举例:绝对温度、货币量、计数、年龄、质量、长度、电流 离散和连续属性 离散属性 具有有限或无限可数个值

文档评论(0)

1亿VIP精品文档

相关文档