距离与相似系数探析.pptVIP

  • 4
  • 0
  • 约小于1千字
  • 约 10页
  • 2018-03-30 发布于湖北
  • 举报
聚类分析和判别分析是两种不同目的的分类方法,它们所起的作用是不同的。 第六章 聚类分析 Classify Analysis 聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。 聚类分析的研究对象是大样本数据, 先找出能够度量样品 或变量 之间相似程度的统计量。 聚类分析的基本思想 以这个统计量作为划分类型的依据. 把一些相似程度较大的样品 或变量 聚合为一类, 形成不同的小类, 再根据相似程度的统计量, 把一些相似程度较大的小类聚合为较大的类. 再把相似程度较大的类聚合成更大的, ……, 直到把所有样品 或变量 都聚合为一类为止. 3 不满足,称为广义距离。 §6.1距离与相似系数 样品间相似性的度量—距离 1. 欧氏距离 2. 绝对距离 3. 明氏距离 4.切比雪夫距离 Block Euclidean Minkowski Chebychev 5. 方差加权距离 6. 马氏距离 设原始观测数据矩阵为: Mahalamobis 用相似系数来衡量变量之间的相似程度 变量间间相近性的度量----相似系数 (1)相关系数 Pearson correlation (2)夹角余弦 Cosine 观测向量在原点处的夹角的余弦, 若变量之间的相关程度密切,则夹角接近0,其余弦接近1;反之接近0。 说明: 相似系数可以用来度量样品间的相似性. 距离也可以用来度量变量间的相似性. 距离和相似系数可以相互转化. 设原始观测数据矩阵为:

文档评论(0)

1亿VIP精品文档

相关文档