第四章主成分分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 主成分分析 【教学目的】通过本章的教学应使学生了解主成分分析的基本原理及其作用,掌握主成分分析的方法,能够应用这一方法分析数据,解决实际问题。 【教学重点】主成分分析的作用及其应用,贡献率,累计贡献率的意义及其在实际应用中的作用。 主成分的定义 在实证研究中,为了全面、系统地分析问题,都尽可能完整地搜集信息,对每个观测往往测量很多指标,这些指标在不同程度上反映了所研究问题的某些信息,并且指标之间避免不了有一定的相关性,因而所得的统计资料反映的信息在一定程度上有重叠。在研究问题时,变量太多会增大计算量和增加分析问题的复杂性,为了使问题简化,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多,主成分分析是解决这一问题的理想工具。 主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构,其功能在于简化原有的变量群。 具体地说,就是设法将原来多个指标重新组合成一组新的相互无关的综合指标,来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这些综合指标是原来指标的线性组合,我们称之为主成分。 主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻的揭示事物内在的规律。 通过这种方法可以降低数据维数,消除原始变量之间的相关性以便进一步利用其他方法对数据进行分析。 主成分分析的基本思想 各指标间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一过程的几个综合指标,使综合指标为原来变量的线性组合,并使其尽可能多的反映原来指标的信息,综合指标反映的信息量用其方差来表达,即综合指标的方差越大,表示其包含的信息越多。 在所有的线性组合中方差最大的称为第一主成分,如果第一主成分不足以代表原来P个指标的信息, 再选取第二个线性组合作为第二主成分,第一主成分已有的信息就不需要再出现在第二主成分中,依次可造出P个主成分。这些主成分之间不仅不相关,而且它们的方差依次递减。在解决实际问题时,一般不是取P个主成分,而是根据累计贡献率的大小取前几个最大主成分,既保留了原指标大部分的信息,又达到降维的目的。 主成分分析的数学模型 设原始变量为x1, x2,…,xp,考虑它们的线性变换 yi =a1ix1+a2ix2+ … +apixp (i=1,2,…,p) 其中y1,y2,…,yp满足以下条件: (1)cov(yi,yj)=0,(i≠j); (2)D(y1)≥ D(y2)≥…≥D(yp),即y1是x1,x2,… ,xp的一切线性组合中方差最大者,y2是方差次大者,依此类推,称y1为x1,x2,… xp的第一主成分,y2为第二主成分,…,yp为第p个主成分。 主成分的表达式及其相互关系(用Z表示主成分) Z1=b11x1+b12x2+…+b1mxm Z2=b21x1+b22x2+…+b2mxm ……………………………… Zm=bm1x1+bm2x2+…+bmmxm 式中Xi为标准化变量,此表达式由标准化变量的协方差矩阵(即相关矩阵)求特征值及其对应的特征向量,SAS中直接给出的因子负荷量与此表达式相对应。 Z1=c11x1+c12x2+…+c1mxm Z2=c21x1+c22x2+…+c2mxm …………………………….. Zm=cm1x1+cm2x2+…+cmmxm 式中Xi为标准化变量,此表达式的系数在上式系数的基础上,乘以相应主成分的特征值之平方根。在结合具体问题解释各主成分时,此表达式优于上式,因为因子载荷量就是主成分与变量间的相关系数,此时,因子载荷量的大小和它前面的正负号直接反映了主成分与相应变量之间关系的密切程度和方向。SPSS中给出的因子载荷量与此表达式相对应。 主成分的推导 主成分其实就是原来指标的一些特殊的线性组合,这些线性组合的系数就是原指标协方差矩阵特征值所对应的特征向量。设相关矩阵为R以及与之同阶的单位矩阵为I,原始变量的个数为P,特征值为λ,求各特征值的过程就是求解特征方程:|R-λI|=0,此方程的左边展开后实际上是一个λ的P阶多项式,其解由大到小依次排列为λ1≥λ2≥…≥λp 0。各特征值对应的特征向量即为线性组合的系数。 在几何上这些线性组合正是把原指标构成的坐标系旋转后产生的新坐标系,新坐标轴代表了具有最大变差的方向,同时提供了协方差矩阵的简洁表示,主成分分析从几何上看是寻找p维空间中椭球体的主轴问题。 主成分的性质 1.主成分的协方差矩阵为对角阵 2.全部主成分反映原变量的总信息,信息量的多少,用变量的方差来度量,变量标准化后

文档评论(0)

aa15090828118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档