聚类分析以及相关系数演示文稿.pptVIP

  • 19
  • 0
  • 约9.26千字
  • 约 83页
  • 2022-05-05 发布于广东
  • 举报
最长距离法与最短距离法并类步骤完全相同, 只是类间距离的递推公式有所不同。设某步 将类 和 合并成新类 ,则 与任 一类 的距离为 第三十页,共八十三页。 图6.2.2 最长距离法树形图 对例6.2.1 采用最长距离法,其树形图如图6.2.2所示 第三十一页,共八十三页。 例 6.2.2 对305 名女中学生测量八个体型指标: 相关矩阵列于表6.2.5,我们用相似系数 来度量各变量之间的相似性。 第三十二页,共八十三页。 表6.2.5 各变量之间的相关系数 1.000 0.846 1.000 0.805 0.881 1.000 0.859 0.826 0.801 1.000 0.473 0.376 0.380 0.436 1.000 0.398 0.326 0.319 0.329 0.762 1.000 0.301 0.277 0.237 0.327 0.730 0.583 1.000 0.382 0.415 0.345 0.365 0.629 0.577 0.539 1.000 第三十三页,共八十三页。 图6.2.3 八个体型变量的最长距离法树形图 第三十四页,共八十三页。 类与类之间的距离既不取两类最近样品间 的距离,也不取两类最远距离间的距离,而是 取介于两者之间的距离,称为中间距离法 (median method)。 中间距离法 第三十五页,共八十三页。 设某一步将 和 合并为 ,对于任一 类 ,考虑由 为边长组成的 三角形(如图6.2.4所示),取 边的中线 作为 ,由初等平面几何可知, 的计算 公式为 第三十六页,共八十三页。 图6.2.4 中间距离法的几何表示 第三十七页,共八十三页。 中间距离法可推广为更一般的情形,将 (6.2.5)式三项的系数依赖于某个参数 ,即 这里 ,这种方法称为可变法。 第三十八页,共八十三页。 其中 和 分别为类 和 的样品个数, 为 中的样品 与 中的样品 之间的距离。 类平均法 类平均法(gverage linkage method)有两种 定义,一种定义方法是类与类之间距离定义 为所有样品对之间的平均距离,即定义 和 之间的距离为 第三十九页,共八十三页。 递推公式为: 第四十页,共八十三页。 另一种定义方法是定义类与类之间的平方距 离为样品对之间的平方距离的平均值,即 它的递推公式类似于(6.2.8)式,即 第四十一页,共八十三页。 在递推公式(6.2.10)式中, 的影响没有被反 映出来,为此可将该递推公式进一步推广为 其中 ,称这种系统聚类方法为可变类 平均法。 第四十二页,共八十三页。 对例6.2.1采用(6.2.9)式的类平均法进行聚类。对 的每个元素都平方,则使用递推公式会比较方便。 (1) 计算 ,见表 6.2.6。 表6.2.6 0 1 0 25 16 0 49 36 4 0 100 81 25 9 0 第四十三页,共八十三页。 (2)找 中的最小元素,它是 ,将 和 合并为 ,计算 与 的距离。这时 , 由(6.2.9) 式计算得 第四十四页,共八十三页。 同样可算得 和 ,列于表6.2.7。 0 20.5 0 42.5 4 0 90.5 25 9 0 表6.2.7 第四十五页,共八十三页。

文档评论(0)

1亿VIP精品文档

相关文档