第四章聚类讲课.ppt

第四章 聚类分析 表4.1 数据矩阵 每个样品可看成p维空间的一个点,n个样品组成p维空间的n个点。我们自然用各点之间的距离来衡量样品之间的相似程度(或靠近程度)。       (2)聚类图(sin最短距离法) (2)聚类图(com最长距离法) (2)聚类图(ave类平均法) (2)聚类图(cen重心法) (2)聚类图(ward离差平方和法) 聚类方法不同,聚类结果也不尽相同。 二、系统聚类法的统计量 聚类分析中,分多少类合适,是我们关心的问题。一个较好的聚类应该是类内各样品尽可能相似,类间差异较大。下面介绍几种有助于分类的统计量。 Sk越小,说明Gk中各样品越相似。记 设在某水平上分为G个类,类Gk中样品的类内离差平方和为 1. R2统计量 类内离差平方和为 1. R2统计量 总离差平方和为 则R2统计量为 R2=1-PG/T 显然 0?R2?1 则R2统计量为 R2=1-PG/T 显然 0?R2?1 当n个样品各自为一类时,R2=1;当n个样品合并成一类时,R2=0。 R2的值随分类个数的减少而减小,当R2由平缓减小到“突变”减小时的G,G即为分类个数的参考值。 设类Gp,Gq的离差平方和分别为 2. 半偏相关统计量 设类Gp,Gq的离差平方和分别为 2. 半偏相关统计量 将Gp,Gq合并成Gr后的离差平方和为

文档评论(0)

1亿VIP精品文档

相关文档