第13讲 聚类分析().pptVIP

  • 31
  • 0
  • 约8.38千字
  • 约 47页
  • 2018-08-20 发布于江苏
  • 举报
第13讲 聚类分析()

西南科技大学生命科学与工程学院周海廷制作 5.5 快速聚类法 (quick cluster method k-means model ) 也叫动态聚类、逐步聚类、迭代聚类) 原理 选择初始凝聚点 根据欧氏距离将每个样品归类 各类的重心代替初始凝聚点 根据欧氏距离将每个样品归类,…… 直至分类达到稳定 初始凝聚点 initial cluster seeds ;cluster centers 自动选择 必须给出允许分类的最大个数k( SAS中用MAXCLUSTERS=k(或MAXC=k) ) 凭经验选择 以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件 5.6 变量聚类法 第3个过程语句中加了HI(要求在不同水平上的聚类保持系统结构,但与无此选则项时的区别并不明显),MAXC=4要求从1类聚到4类,此选择项的最大值为变量的个数。 [输出结果及其解释] Total variation explained = 5.654444 Proportion = 0.5654 1类分裂成2类,各含5个指标,此时能解释的方差为5.65444,占总方差10的56.54%。 同理可理解该列中的其他相关系数的含义; 第1类中的某个指标与相邻类(此处为第2类)的类成分之间的相关系数的平方,称为R-squared with Next closest,如:AGE与第2类成分之间的相关系数的平方为0.2958,该值越小,说明分类越合理。 最后一列的比值由同一横行的数据求得,如:(1-0.5843)/(1-0.2958)=0.5903,此值越小,表明分类越合理。从最后一列可看出,很多比值较大,说明这10个变量分成2类是不太合适的。 这是从标准化变量预测类成分的标准回归系数,若设C1、C2分别为第1和第2类成分, 即: 类结构相当于因子分析中的因子模型,即每个标准化变量可以表示成全部类成分的线性组合。如: AGE=-0.764387C1-0.543839C2。 No cluster meets the criterion for splitting. 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值,停止分裂。 第①列表示分成一类与两类时分别能解释的总方差量;第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比;第③列表示分成一类与两类时由1个类成分能解释的方差占全部10个变量的总方差的最小百分比。 第①列为各类中最大的第2特征值;第②列为各类中1个变量与其所在类成分的最小相关系数的平R2;第③列为各类中(1-R2)own/(1-R2)next的最大比值。 参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。 上述主要结果是由第2个过程步输出的。 这是第3个过程步输出的主要结果。 这是第4个过程步输出的主要结果。 结合专业知识发现:由第3个过程聚类的结果比较合理,即第1类中含BJ(步距)、JJ(步行时双下肢夹角)、BS(步速)这三个与走步有关的变量; 第2类中含TJ(图片记忆)、XS(心算时间)、TS(图形顺序记忆)这三个与记忆、计算有关的指标; 第3类中含SG(数字广度记忆)、XX(心算位数)这两个与记忆、计算有关的指标; 第4类中含AGE(年龄)、CK(穿孔)这两个与视力和协调能力有关的指标。 分类的结果将有助于研究者对影响人脑老化本质的认识,为进一步从事这方面的研究提供了一些线索。 5.8 用CLUSTER过程实现样品聚类分析 [例5. 2] 某研究者收集了24种菌株,其中17~22号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。测得各菌株的16种脂肪酸百分含量,试作样品聚类分析,以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。 在SAS中用系统聚类法对样品进行聚类时提供了11只同的聚类形式(即距离的定义方法不同),指定的方法是在METHOD=后面填入1个相应的选择项,它们是: AVERAGE(平均法)   CENTROID(重心分量法) COMPLETE(最长距离法) DENSITY(非参数概率密度估计法) EML(最大似然法)   FLEXIBLE(flexible-beta法) MCQUITTY(Mcquitty的相似分析法) MEDIAN(中位数法) SINGLE(最短距离法)       TWOSTAGE(两阶段密度法) WARD(Ward最小方差法) 计算新类与其他类之间的距离的递推公式不同,一旦任何两类之间的距离算出来后,仍按距离最小者先合并。 用不同的聚类形式对同一批资料进行

文档评论(0)

1亿VIP精品文档

相关文档