第二章 数据预处理.pptxVIP

  • 4
  • 0
  • 约7.66千字
  • 约 57页
  • 2026-06-17 发布于湖南
  • 举报

第二章数据预处理;本章内容;

数据类型:这里所说的数据类型并不是指编程语言所支持的字符型、整形、布尔型等,而是指数据的属性类型。

数据集是数据对象的集合,一个数据对象代表一个实体。

数据对象用一组刻画对象基本特征的属性来描述,属性可以具有不同的类型,由该属性可能具有的值的集合决定。

数据的类型决定我们应使用何种工具和技术来分析数据。

;标称属性

二元属性

对称的二元属性

非对称的二元属性

序数属性

数值属性

区间标度属性

比率标度属性

;离散属性和连续属性

离散属性(discreteattribute)具有有限个值或无限可数个值。这样的属性可以是分类的,如邮政编码或ID号;也可以是数值的,如计数。通常,离散属性用整数变量表示。

连续属性(continuousattribute)是取实数值的属性。如温度、高度或重量等属性。通常,连续属性用浮点变量表示。实践中,实数值只能用有限的精度测量和表示。

;本章内容;对象之间的相似性和相异性称为邻近性(proximity)。

相似度(similarity):衡量两个对象相似程度的数值度量,对象越类似则相似度越高,其取值通常在0(不相似)和1(完全相似)之间。一般用s作为相似度符号。

相异度(dissimilarity):又称为距离,衡量两个对象差异程度的数值度量,对象越类似则相异度越低,通常在[0,1]之间取值。一般用d作为相异度符号

文档评论(0)

1亿VIP精品文档

相关文档