第讲聚类分析.pptVIP

下载本文档

24
0
约8.38千字
约 47页
2018-08-14 发布于江苏
举报
版权申诉

第讲聚类分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第讲聚类分析

西南科技大学生命科学与工程学院周海廷制作 5.5 快速聚类法（quick cluster method k-means model ）也叫动态聚类、逐步聚类、迭代聚类）原理选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类，…… 直至分类达到稳定初始凝聚点initial cluster seeds ；cluster centers 自动选择必须给出允许分类的最大个数k（ SAS中用MAXCLUSTERS=k(或MAXC=k) ）凭经验选择以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件 5.6 变量聚类法第３个过程语句中加了HI（要求在不同水平上的聚类保持系统结构，但与无此选则项时的区别并不明显），MAXC=4要求从１类聚到４类，此选择项的最大值为变量的个数。 [输出结果及其解释] Total variation explained = 5.654444 Proportion = 0.5654１类分裂成２类，各含５个指标，此时能解释的方差为5.65444，占总方差10的56.54％。同理可理解该列中的其他相关系数的含义；第１类中的某个指标与相邻类(此处为第２类)的类成分之间的相关系数的平方,称为R-squared with Next closest，如：AGE与第２类成分之间的相关系数的平方为0.2958,该值越小，说明分类越合理。最后一列的比值由同一横行的数据求得，如：(1-0.5843)/(1-0.2958)=0.5903，此值越小，表明分类越合理。从最后一列可看出，很多比值较大，说明这10个变量分成２类是不太合适的。这是从标准化变量预测类成分的标准回归系数，若设C1、C2分别为第１和第２类成分，即：类结构相当于因子分析中的因子模型，即每个标准化变量可以表示成全部类成分的线性组合。如： AGE=-0.764387C1-0.543839C2。 No cluster meets the criterion for splitting. 类内相关就是类成分之间的相关系数。此时已达到隐含的停止分裂的临界值，停止分裂。第①列表示分成一类与两类时分别能解释的总方差量；第②列表示分成一类与两类时分别能解释的方差占全部10个变量的总方差的百分比；第③列表示分成一类与两类时由１个类成分能解释的方差占全部10个变量的总方差的最小百分比。第①列为各类中最大的第２特征值；第②列为各类中１个变量与其所在类成分的最小相关系数的平R2；第③列为各类中（1-R2）own／（1-R2）next的最大比值。参见前面关于“R-squared with own cluster 、next cluster”部分输出结果及其解释。上述主要结果是由第２个过程步输出的。这是第３个过程步输出的主要结果。这是第４个过程步输出的主要结果。结合专业知识发现：由第３个过程聚类的结果比较合理，即第１类中含BJ（步距）、JJ（步行时双下肢夹角）、BS（步速）这三个与走步有关的变量；第２类中含TJ（图片记忆）、XS（心算时间）、TS（图形顺序记忆）这三个与记忆、计算有关的指标；第３类中含SG（数字广度记忆）、XX（心算位数）这两个与记忆、计算有关的指标；第４类中含AGE（年龄）、CK（穿孔）这两个与视力和协调能力有关的指标。分类的结果将有助于研究者对影响人脑老化本质的认识，为进一步从事这方面的研究提供了一些线索。 5.8 用CLUSTER过程实现样品聚类分析 [例5. 2]　某研究者收集了24种菌株，其中17～22号为已知的标准菌株，它们分别取自牛、羊、犬、猪、鼠、绵羊，其他为未知菌株。测得各菌株的16种脂肪酸百分含量，试作样品聚类分析，以便了解哪些未知菌株与已知的标准菌株在全部指标上最为接近。在SAS中用系统聚类法对样品进行聚类时提供了11只同的聚类形式（即距离的定义方法不同），指定的方法是在METHOD＝后面填入１个相应的选择项，它们是：AVERAGE(平均法)　　 CENTROID(重心分量法)COMPLETE(最长距离法)　DENSITY(非参数概率密度估计法)EML(最大似然法)　　 FLEXIBLE(flexible-beta法)MCQUITTY(Mcquitty的相似分析法)　MEDIAN(中位数法)SINGLE(最短距离法)　　　　　　　TWOSTAGE(两阶段密度法)WARD(Ward最小方差法) 计算新类与其他类之间的距离的递推公式不同，一旦任何两类之间的距离算出来后，仍按距离最小者先合并。用不同的聚类形式对同一批资料进行

您可能关注的文档

文档评论（0）

woai118doc + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第讲聚类分析.pptVIP