1.数据变换重点.ppt

1.数据变换重点

数据变换 目 录 §1 变量测量尺度的类型 §2 数据的变换处理 §3 样品间亲疏程度的测度 为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。 (1)间隔尺度。指标度量用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。 研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 1. 常用的距离算法 设 和 是第i和 j 个样品的观测值,则二者之间的距离 为: 明考夫斯基距离主要有以下两个缺点: ①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档