- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第讲 聚类分析
西南科技大学生命科学与工程学院周海廷制作 5.5 快速聚类法(quick cluster method k-means model )也叫动态聚类、逐步聚类、迭代聚类) 原理 选择初始凝聚点 根据欧氏距离将每个样品归类 各类的重心代替初始凝聚点 根据欧氏距离将每个样品归类,…… 直至分类达到稳定 初始凝聚点initial cluster seeds ;cluster centers 自动选择 必须给出允许分类的最大个数k( SAS中用MAXCLUSTERS=k(或MAXC=k) ) 凭经验选择 以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件 5.6 变量聚类法 第3个过程语句中加了HI(要求在不同水平上的聚类保持系统结构,但与无此选则项时的区别并不明显),MAXC=4要求从1类聚到4类,此选择项的最大值为变量的个数。 [输出结果及其解释] Total variation explained = 5.654444 Proportion = 0.56541类分裂成2类,各含5个指标,此时能解释的方差为5.65444,占总方差10的56.54%。 同理可理解该列中的其他相关系数的含义; 第1类中的某个指标与相邻类(此处为第2类)的类成分之间的相关系数的平方,称为R-squared with Next closest,如:AGE与第2类成分之间的相关系数的平方为0.2958,该值越小,说明分类越合理。 最后一列的比值由同一横行的数据求得,如:(1-0.5843)/(1-0.2958)=0.5903,此值越小,表明分类越合理。从最后一列可看出,很多比值较大,说明这10个变量分成2类是不太合适的。 这是从标准化变量预测类成分的标准回归系数,若设C1、C2分别为第1和第2类成分,即: 类结构相当于因子分析中的因子模型,即每个标准化变量可以表示成全部类成分的线性组合。如: AGE=-0.764387C1-0.543839C2。 No cluster meets the criterion for splitting. 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值,停止分裂。 第①列表示分成一类与两类时分别能解释的总方差量;第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比;第③列表示分成一类与两类时由1个类成分能解释的方差占全部10个变量的总方差的最小百分比。 第①列为各类中最大的第2特征值;第②列为各类中1个变量与其所在类成分的最小相关系数的平R2;第③列为各类中(1-R2)own/(1-R2)next的最大比值。 参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。 上述主要结果是由第2个过程步输出的。 这是第3个过程步输出的主要结果。 这是第4个过程步输出的主要结果。 结合专业知识发现:由第3个过程聚类的结果比较合理,即第1类中含BJ(步距)、JJ(步行时双下肢夹角)、BS(步速)这三个与走步有关的变量; 第2类中含TJ(图片记忆)、XS(心算时间)、TS(图形顺序记忆)这三个与记忆、计算有关的指标; 第3类中含SG(数字广度记忆)、XX(心算位数)这两个与记忆、计算有关的指标; 第4类中含AGE(年龄)、CK(穿孔)这两个与视力和协调能力有关的指标。 分类的结果将有助于研究者对影响人脑老化本质的认识,为进一步从事这方面的研究提供了一些线索。 5.8 用CLUSTER过程实现样品聚类分析 [例5. 2] 某研究者收集了24种菌株,其中17~22号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。测得各菌株的16种脂肪酸百分含量,试作样品聚类分析,以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。 在SAS中用系统聚类法对样品进行聚类时提供了11只同的聚类形式(即距离的定义方法不同),指定的方法是在METHOD=后面填入1个相应的选择项,它们是:AVERAGE(平均法) CENTROID(重心分量法)COMPLETE(最长距离法) DENSITY(非参数概率密度估计法)EML(最大似然法) FLEXIBLE(flexible-beta法)MCQUITTY(Mcquitty的相似分析法) MEDIAN(中位数法)SINGLE(最短距离法) TWOSTAGE(两阶段密度法)WARD(Ward最小方差法) 计算新类与其他类之间的距离的递推公式不同,一旦任何两类之间的距离算出来后,仍按距离最小者先合并。 用不同的聚类形式对同一批资料进行
原创力文档


文档评论(0)