田间试验与统计方法12_聚类与主成分分析课件.pptVIP

下载本文档

0
0
约1.04万字
约 82页
2018-02-24 发布于湖北
举报
版权申诉

田间试验与统计方法12_聚类与主成分分析课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

田间试验与统计方法12_聚类与主成分分析课件

根据主成分分析模型和因子载荷，可以得到两个主成分与原来6个变量之间的线性组合表达式如下怎样解释主成分？(主成分与原始变量的关系) 注意：表达式中的不是原始变量，而是标准化变量 * 载荷图(Loading Plot)直观显示主成分对原始6变量的解释情况图中横轴表示第一个主成分与原始变量间的相关系数；纵轴表示第二个主成分与原始变量之间的相关系数每一个变量对应的主成分载荷就对应坐标系中的一个点，比如，人均GDP变量对应的点是(0.670，0.725) 第一个主成分很充分地解释了原始的6个变量(与每个原始变量都有较强的正相关关系)，第二个主成分则较好地解释了居民消费水平、人均GDP和年末总人口这3个变量(与它们的相关关系较高)，而与其他变量的关系则较弱(相关系数的点靠近坐标轴) 怎样解释主成分？ (Loading Plot) 相关系数的点越远离坐标轴，主成分对原始变量的代表性就越大。这3个点远离主成分2的坐标 * 主成份分析的环境应用 * * KMO（Kaiser-Meyer-Olkin) 检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。 KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时，KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强，原有变量越适合作因子分析；当所有变量间的简单相关系数平方和接近0时，KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱，原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准:　0.9以上表示非常适合；0.8表示适合；0.7表示一般；0.6表示不太适合；0.5以下表示极不适合。 Bartlett 球度检验：巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的，如果该值较大，且其对应的相伴概率值小于用户心中的显著性水平，那么应该拒绝零假设，认为相关系数矩阵不可能是单位阵，即原始变量之间存在相关性，适合于做主成份分析；相反，如果该统计量比较小，且其相对应的相伴概率大于显著性水平，则不能拒绝零假设，认为相关系数矩阵可能是单位阵，不宜于做因子分析。 * * * R 相关矩阵 0.7 表明适合进行主因子分析。 Bartlett 检验拒绝0假设，也认为适合进行主因子分析。 * 方差贡献（特征值）协方差矩阵的特征根特征向量平方根本例是这样求，不能推广。 * 特征值特征向量求特征值特征向量（不同矩阵，具体求法不同，略） * e7e5e8e1e6e2e3e4 F1=0.577x1+0.577x2+0.577x3 特征向量 * 主成分分析评价结果第一季度：第二季度：第三季度：第四季度： e7e5e8e1e6e2e3e4 * * * * * * * 如果提取的不只一个主成分，怎么办？…. * THE END ,THANKS! * * * * * * * * * * K-均值聚类的应用 (实例分析) 分成4类的迭代过程 ? 该表从表中可以看出每次迭代过程中类别中心的变化，随着迭代次数的增加，类别中心点的变化越来越小。本例只4次就已经收敛了 * K-均值聚类的应用 (实例分析) 分成4类的最终聚类中心 ? 表中的数据表示各个类别在各变量上的平均值。如，第一类的2.88521表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值 * K-均值聚类的应用 (实例分析) 分类后各个变量在类别之间的方差分析表 ? 利用方差分析表可以判断所分的类别是否合理。从表中可以看出，分类后各变量在不同类别之间的差异都是显著的(P值均接近0) * K-均值聚类的应用 (实例分析) 分成4类时每一类的地区数量 ? 由该表可以看出，第一类包括2个地区，第二类包括11个地区，第三类包括4个地区，第四类包括14个地区 * K-均值聚类的应用 (实例分析) 分成4类时每个地区所属的类别 * K-均值聚类的应用 (分类汇总) 类别地区地区个数第一类上海，北京 2 第二类天津，内蒙古，吉林，海南，重庆，贵州，西藏，甘肃，青海，宁夏，新疆 11 第三类江苏，浙江，山东，广东 4 第四类河北，山西，辽宁，黑龙江，安徽，福建，江西，河南，湖北，湖南，广西，四川，云南，陕西 14 * 除系统聚类法和K-均值聚类法外，1996年还提出一种新的聚类方法，即两步聚类法(TwoStep Cluster)(SPSS提供了该聚类方法的程序)；无论那种分类方法，最终要分成多少类别，并不是完全由方法本身来决定，研究者应结合具体问题而定；聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法，也会的得到不同的分类结果。分类的结果