- 31
- 0
- 约8.38千字
- 约 47页
- 2018-08-20 发布于江苏
- 举报
第13讲 聚类分析()
西南科技大学生命科学与工程学院周海廷制作 5.5 快速聚类法(quick cluster method k-means model )也叫动态聚类、逐步聚类、迭代聚类) 原理 选择初始凝聚点 根据欧氏距离将每个样品归类 各类的重心代替初始凝聚点 根据欧氏距离将每个样品归类,…… 直至分类达到稳定 初始凝聚点initial cluster seeds ;cluster centers 自动选择 必须给出允许分类的最大个数k( SAS中用MAXCLUSTERS=k(或MAXC=k) ) 凭经验选择 以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件 5.6 变量聚类法 第3个过程语句中加了HI(要求在不同水平上的聚类保持系统结构,但与无此选则项时的区别并不明显),MAXC=4要求从1类聚到4类,此选择项的最大值为变量的个数。 [输出结果及其解释] Total variation explained = 5.654444 Proportion = 0.56541类分裂成2类,各含5个指标,此时能解释的方差为5.65444,占总方差10的56.54%。 同理可理解该列中的其他相关系数的含义; 第1类中的某个指标与相邻类(此处为第2类)的类成分之间的相关系数的平方,称为R-squared with Next closest,如:AGE与第2类成分之间的相关系数的平方为0.2958,该值越小,说明分类越合理。 最后一列的比值由同一横行的数据求得,如:(1-0.5843)/(1-0.2958)=0.5903,此值越小,表明分类越合理。从最后一列可看出,很多比值较大,说明这10个变量分成2类是不太合适的。 这是从标准化变量预测类成分的标准回归系数,若设C1、C2分别为第1和第2类成分,即: 类结构相当于因子分析中的因子模型,即每个标准化变量可以表示成全部类成分的线性组合。如: AGE=-0.764387C1-0.543839C2。 No cluster meets the criterion for splitting. 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值,停止分裂。 第①列表示分成一类与两类时分别能解释的总方差量;第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比;第③列表示分成一类与两类时由1个类成分能解释的方差占全部10个变量的总方差的最小百分比。 第①列为各类中最大的第2特征值;第②列为各类中1个变量与其所在类成分的最小相关系数的平R2;第③列为各类中(1-R2)own/(1-R2)next的最大比值。 参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。 上述主要结果是由第2个过程步输出的。 这是第3个过程步输出的主要结果。 这是第4个过程步输出的主要结果。 结合专业知识发现:由第3个过程聚类的结果比较合理,即第1类中含BJ(步距)、JJ(步行时双下肢夹角)、BS(步速)这三个与走步有关的变量; 第2类中含TJ(图片记忆)、XS(心算时间)、TS(图形顺序记忆)这三个与记忆、计算有关的指标; 第3类中含SG(数字广度记忆)、XX(心算位数)这两个与记忆、计算有关的指标; 第4类中含AGE(年龄)、CK(穿孔)这两个与视力和协调能力有关的指标。 分类的结果将有助于研究者对影响人脑老化本质的认识,为进一步从事这方面的研究提供了一些线索。 5.8 用CLUSTER过程实现样品聚类分析 [例5. 2] 某研究者收集了24种菌株,其中17~22号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。测得各菌株的16种脂肪酸百分含量,试作样品聚类分析,以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。 在SAS中用系统聚类法对样品进行聚类时提供了11只同的聚类形式(即距离的定义方法不同),指定的方法是在METHOD=后面填入1个相应的选择项,它们是:AVERAGE(平均法) CENTROID(重心分量法)COMPLETE(最长距离法) DENSITY(非参数概率密度估计法)EML(最大似然法) FLEXIBLE(flexible-beta法)MCQUITTY(Mcquitty的相似分析法) MEDIAN(中位数法)SINGLE(最短距离法) TWOSTAGE(两阶段密度法)WARD(Ward最小方差法) 计算新类与其他类之间的距离的递推公式不同,一旦任何两类之间的距离算出来后,仍按距离最小者先合并。 用不同的聚类形式对同一批资料进行
您可能关注的文档
最近下载
- 港口道路与堆场施工规范.pdf VIP
- 小学科学新教科版三年级下册全册教案(2026春).pdf
- 2025年中国科技大学创新班入围考试数学试卷真题(答案解析) .pdf VIP
- 城市隧道新建工程施工方案.docx VIP
- 小型智能叶菜类蔬菜收割机设计外文文献翻译、中英文翻译、外文翻译.doc VIP
- NB T 14003.1-2015页岩气 压裂液 第1部分:滑溜水性能指标及评价方法最新.pdf VIP
- 高级管理会计(第2版-)【完整版】-胡玉明.ppt VIP
- 危大、超危大识别及划分!2025危大工程方案内容、专家论证及项目交底全过程管理.pptx VIP
- 《义务教育语文课程标准(2025年版)》解读PPT课件.docx VIP
- MXD6特种尼龙行业动态报告:MXD6具备高阻隔及高刚性特点,国产厂商放量在即空间广阔.docx
原创力文档

文档评论(0)