[农林牧渔]聚类分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[农林牧渔]聚类分析

聚类分析 Cluster Analysis 物以类聚,人以群分 类:相似物体的集合 分 类 问 题 在医学研究中经常会遇到分类的问题,例如: 在解剖学研究中,希望能依据骨骼的形状、大小等特征将人类从猿到人分为几个不同的阶段; 在临床诊治中,希望能根据耳朵的特征,把正常耳朵划分为几个类别,为临床修复耳缺损时参考; 在卫生管理学中,希望能根据医院的诊治水平、工作效率等众多指标将医院分成几个类别; 在营养学研究中,如何能根据各种运动的耗糖量和耗能量将十几种运动按耗糖量和耗能量进行分类,使营养学家既能对运动员适当的补充能量,又不增加体重。 多元统计三大方法 聚类 判别 回归 聚类分析的方向: 聚类分析(cluster analysis)是将样品个体或指标变量按其具有的特性进行分类的一种统计分析方法。 对样品进行聚类,称为样品(Q型)聚类分析。其目的是将分类不明确的样品按性质相似程度分成若干组,从而发现同类样品的共性和不同类样品间的差异。 对指标进行聚类,称为指标(R型)聚类分析。其目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标(主成分分析?因子分析?)。 例如: 在医生医疗质量研究中,有n个医生参加医疗质量评比,每一个医生有k个医疗质量指标被记录。利用聚类分析可以将n个医生按其医疗质量的优劣分成几类,或者把 k个医疗质量指标按反映的问题侧重点不同分成几类。 在冠心病研究中,观察n个病人的 k个观察指标,并利用聚类分析方法分析这n个病人各自属于哪一类别,相似的病人可以采取相似的治疗措施;同时也能将k个指标分类,找出说明病人病情不同方面的指标类,帮助医生更好地全面了解病人病情。 问题: 如何刻画样品/(指标)变量间的亲疏关系或相似程度? 第一节 聚类分析的基本思想 基本思想: 寻找一种能客观反应事物之间亲疏关系或合理评价事物性质相似程度的统计量,然后根据这种统计量和规定的分类准则把事物进行分类。 第二节 聚类分析的统计量 1、描述两个样品之间的相似程度: 距离 令 Xi =(x i 1 … x i t … x i k )是第 i 个样本观察值, Xj =(x j 1 … x j t … x j k )是第 j 个样本观察值,那么,样本 Xi 和 Xj 之间的欧氏距离是: 2、描述两个指标变量之间的相似程度:相似系数 令 Xs =(x 1 s … x i s … x n s )是第 s 个指标变量, Xt =(x 1 t … x i t … x n t )是第 t 个指标变量, 那么,指标变量 Xs和Xt之间的相关系数是: 3、度量类与类之间的距离:类间距离 令类A和类B中各有a和b个样品,D(i ,j)为类A中第 i 个样本与类B中第 j 个样本之间的距离;假设D(A, B)为类A和类B之间的距离,那么,常用的几种类间距离定义的方法是: 4、度量类与类之间的相似系数:类间相似系数 令类A和类B中各有a和b个指标变量,Za和Zb分别是由类A和类B中所有指标变量的线性组合构成的新变量(称为类成分),例如: Za = a1 X1 + a2 X2 Zb = b1 X3 + b2 X4 + b3 X5 且它们的组合系数使得这两个新变量具有最大的方差,则称Za和Zb之间的相关系数为类A和类B之间的相关系数。 第三节 聚类分析的方法 系统聚类法: 适用于样本量较少的样本聚类(proc cluster); 适用于指标聚类(proc varclus)。 逐步聚类法(proc fastclus): 适用于样本量较大(100-100,00)的样本聚类; 对于样本量较小的样本聚类,如果采用逐步聚类法,聚类结果将与样本的顺序有关。 一、用系统聚类法聚类指标的步骤 确定类内指标总体变异至少被类成分所解释的比例p,一般取p70%; 把所有指标看成一类,计算类内指标的总体变异被类成分所解释的比例,如果被类成分所解释的比例大于或等于p,则聚类停止;否则, 将这个类分解成两个类,原则是使得每一类内的指标总体变异尽可能多地被该类的类成分所解释,且类间相关系数达到最小,如果所有的被解释比例都大于或等于p,则聚类停止;否则, 对比例最小的一类再继续进行分解; 重复以上步骤,直到所有类的类内指标总体变异被类成分所解释的比例都大于或等于p为止。 例1、为了进行体质研究,湖北省青少年体质研究所从17岁男生中随机地抽取了100人,测量了8个形态指标,它们是体重(x1),肩宽(x2),骨盆宽(x3),小腿长(x4),胸围(x5),大腿围(x6),上臂围(x7)和身高(x8)。这8个指标变量的相关系

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档