补充材料一:主成分分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
补充材料一:主成分分析

补充材料一:主成分分析 1.1引言 多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。 主成分分析(principal components analysis,简称PCA)也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,可以得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。 我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。在多变量的情况下,变量的变异性用协方差矩阵来表示。 1.2主成分的几何意义及数学推导 设为m维随机向量,且二阶矩存在,称为的期望向量,称矩阵为的协方差矩阵,其元素为与的协方差,为的方差。由概率论的知识可知协方差矩阵是一个半正定的对称矩阵。下面的引理来自于线性代数: 引理1:设为一个阶对称阵,则 (1)必有个实的特征值; (2) 的不同特征值对应的特征向量必正交; (3)必可对角化,且存在正交阵,使得 其中,的个列向量恰为的个正交的特征向量。 为了说清楚主成分分析的思想方法,我们先回顾一下求二次型的标准型问题。设为一个阶二次型,其中为一个阶对称阵,如果做正交变换,那么 特别地,当,且为正定阵时,方程表示平面上的一个椭圆,只不过,主轴与坐标轴不平行,但在新坐标轴下,椭圆方程变成了,主轴与坐标轴是平行的,如下图: 图1 主成分的几何意义 正交变换,在几何上就是作一个坐标旋转或者反射。由上图可知,同样一个椭 圆,在不同的坐标系下表达方式是不一样的,在下要简单得多,也便于研究,与就是椭圆的两个主轴,且均为与的线性组合。 以上我们只是对阶二次型的一个特例进行了简单的分析,一般地对阶二次型可以进 行同样的分析,由线性代数的知识可知以下结论: 引理2:设为一个阶对称阵,为对应的二次型,利用引理1中的正交阵做正交变换,则有 其中为的个特征值;,且 ; 由前知,m维随机向量的协方差矩阵为对称半正定的,如果设为的特征值,那么由引理2知存在正交阵,使得,此时令m维随机向量,可得的协方差矩阵为 由此可知本节主要结论如下: 定理1:设为m维随机向量,且二阶矩存在,则必存在的线性组合 ; 使得 (1),为相互正交的单位长向量; (2)与互不相关(),且; (3); (4)与的相关系数为,并称之为因子负(载)荷量,且满足 。 今后,我们称为第一主成分,称为第二主成分,依此类推。主成分分析把个原始变量的总方差分解成了个互不相关的变量的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称 为第个主成分的贡献率。第一主成分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。若只取前个主成分,则称 为主成分的累计贡献率,累计贡献率表明综合的能力。通常取,使得累计贡献率达到一个较高的百分数(如85%以上)。 1.3实际应用中主成分分析的出发点及综合评价 我们前面讨论的主成分计算是从协方差矩阵出发的,其结果受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的主成分,主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。为使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,我们常常将各原始变量作标准化处理,即令 显然,的协方差矩阵就是的相关系数矩阵。同样地相关系数矩阵也是一个半正定的对称阵,于是上述对协方差阵所进行的主成分分析可以一模一样地对相关系数矩阵进行。但是,从相关阵求得的主成分与从协差阵

文档评论(0)

wuyuetian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档