田间试验与统计方法12聚类与主成分说课.ppt

田间试验与统计方法12聚类与主成分说课.ppt

  1. 1、本文档共82页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
根据主成分分析模型和因子载荷,可以得到两个主成分与原来6个变量之间的线性组合表达式如下 怎样解释主成分? (主成分与原始变量的关系) 注意:表达式中的不是原始变量,而是标准化变量 载荷图(Loading Plot)直观显示主成分对原始6变量的解释情况 图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数 每一个变量对应的主成分载荷就对应坐标系中的一个点,比如,人均GDP变量对应的点是(0.670,0.725) 第一个主成分很充分地解释了原始的6个变量(与每个原始变量都有较强的正相关关系),第二个主成分则较好地解释了居民消费水平、人均GDP和年末总人口这3个变量(与它们的相关关系较高),而与其他变量的关系则较弱(相关系数的点靠近坐标轴) 怎样解释主成分? (Loading Plot) 相关系数的点越远离坐标轴,主成分对原始变量的代表性就越大。这3个点远离主成分2的坐标 主成份分析的环境应用 KMO(Kaiser-Meyer-Olkin) 检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。 KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。 Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 R 相关矩阵 0.7 表明适合进行主因子分析。 Bartlett 检验拒绝0假设,也认为适合进行主因子分析。 方差贡献(特征值) 协方差矩阵的特征根 特征向量 平方根 本例是这样求,不能推广。 特征值特征向量 求特征值特征向量(不同矩阵,具体求法不同,略) e7e5e8e1e6e2e3e4 F1=0.577x1+0.577x2+0.577x3 特征向量 主成分分析评价结果 第一季度: 第二季度: 第三季度: 第四季度: e7e5e8e1e6e2e3e4 如果提取的不只一个主成分,怎么办?…. THE END ,THANKS! * * * * * * * * * K-均值聚类的应用 (实例分析) 分成4类的迭代过程 ? 该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只4次就已经收敛了 K-均值聚类的应用 (实例分析) 分成4类的最终聚类中心 ? 表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值 K-均值聚类的应用 (实例分析) 分类后各个变量在类别之间的方差分析表 ? 利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的(P值均接近0) K-均值聚类的应用 (实例分析) 分成4类时每一类的地区数量 ? 由该表可以看出,第一类包括2个地区,第二类包括11个地区,第三类包括4个地区,第四类包括14个地区 K-均值聚类的应用 (实例分析) 分成4类时每个地区所属的类别 K-均值聚类的应用 (分类汇总) 类别 地区 地区个数 第一类 上海,北京 2 第二类 天津,内蒙古,吉林,海南,重庆,贵州,西藏,甘肃,青海,宁夏,新疆 11 第三类 江苏,浙江,山东,广东 4 第四类 河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,四川,云南,陕西 14 除系统聚类法和K-均值聚类法外,1996年还提出一种新的聚类方法,即两步聚类法(TwoStep Cluster)(SPSS提供了该聚类方法的程序); 无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定; 聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已; 使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档