- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS系统和数据分析主成分分析
主成分分析
主成分的导出
主成分分析(principal component analysis)是1901年提出,再由Hotelling(1933)加以发展的一种统计方法。其主要目的是在于将许多变量减少,并使其改变为少数几个相互独立的线性组合形成的变量(主成分),而在经由线性组合而得的成分之方差会变为最大,使得原始维资料在这些成分上显示最大的个别差异来。用一句话来说,主成分分析是将多个变量化为少数综合变量的一种多元统计方法。设有组样品,每组样品有个变量,记组样品数据见表35.1。
表35.1 个变量的组样品数据
样品号
变量 1 2 … n
…
…
…
如果个变量是相互独立的,则可以将问题化为单变量逐个处理,这是比较简单的。但是对大量的实际问题中提出来的数据,各变量之间往往存在着不同程度的相关关系,这时要搞清这些数据之间的关系,就必须在高维空间中加以研究,这显然是比较麻烦的,为了克服这一困难,一个很自然的想法就是采取降维的方法,也就是利用全部个变量来重新构造个新的综合变量(),个变量的统计特性,
假定,,…,是一组随机变量,并且,协方差阵。考虑,,…,的一个线性组合(或称线性变换):
(35.1) 这里。对于综合变量,我们要选择一组系数使得的方差最大;由于,对任意给定的常数,,如果对不加以限制,上述问题就变得毫无意义。于是限制,求的最大值。根据限制性条件下的拉格朗日极值理论可以证明,在此情况下的的最大值等价于求:
(35.2) 的值,就等于矩阵的最大特征根,就是对应的特征向量。若记矩阵Σ*的p个特征值≥≥…≥ = … = = 0,且m个非零特征值所对应的特征向量分别为,,…,,则:
那么,把矩阵的非0特征根≥ ≥…≥ 0所对应的单位特征向量,,…,分别作为,,…,的系数向量,分别称为随机向量的第1主成分、第2主成分,…,第m主成分。当时
(35.3) 所以,主成分之间是不相关的。而且可以看到,主成分分析主要就是由观察数据阵得到协方差的估计,从出发计算它的特征值和特征向量。
维随机向量的主成分其实就是个变量的一些特殊的线性组合,在几何上这些线性组合正好把构成的原坐标系统经过旋转后产生新坐标系统,这个新坐标系统的轴方向上具有最大的变异,同时提供了协方差阵的最简洁的表示(非对角线上为0)。例如,我们有一个=2维随机向量的=100个点构成一个椭圆形状,如图35-1所示。第一主成分则是这个椭圆的长轴方向,因为原坐标系的100点按长轴方向旋转后数据最离散,具有最大的方差,设定旋转方向的表示为单元圆上的一个单位方向,与长轴平行的单位方向具有,因此,不难求出第一主成分的系数向量的具体值。而椭圆的短轴与长轴是垂直的,是第二个主成分的方向,因为短轴是与长轴不相关方向中具有最大的方差,同样与短轴平行的单位方向具有,同求第一主成分的系数向量一样,我们也能容易求出的具体值。
用开头个主成分形成的维子空间,从几何上看,当采用从每个数据点到子空间的垂直距离的平方和作为度量时,这个维子空间对数据点给出了最好的拟合。例如,在图35-1所示中,所有数据点到第一主成分轴(椭圆的长轴)的垂直距离的平方和是最小的。要特别注意,它不同于最小二乘回归的几何表示,回归是最小化所有数据点到拟合直线的垂直偏差的平方和。
贡献率与累积贡献率
由主成分的性质可知,主成分的方差, ,…,与随机变量x1, x2,xp的方差S11,S22,…,Spp之间有关系:
(35.4) 我们称:
(35.5) 为第k个主成分的贡献率,k个主成分提取全部信息的多少。又称:
(35.6) 为前k个主成分的累积贡献率,它反映了前k个主成分共同提取全部信息的多少。我们进一步还可以考虑第k主成分与p个变量x1, x2,xp的相关系数,称其为因子负荷量,记为L(Zk,xi)(对相关阵的主成分或标准化后的数据),有:
(35.7) 其中,为第k个特征值所对应的特征向量的第i个分量。
样本资料数据的主成分分析
在实际分析中,我们一般得到如表(35.1)所示的数据资料,设,第i个样品的数据为,样本资料数据用矩阵表示为,则平均值向量为,其中,协方差矩阵的估计量为,其中。我们可以求出协方差矩阵的特征根和特征向量,不妨设为≥≥…≥ 0,其所
文档评论(0)