- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
11.2 主成分分析
主成分分析(Principal Components Analysis)也称主分量分析,是由Hotelling于1933年首先提出的。主成分分析是利用降维的思想,把多个指标转化为少数几个综合指标的多元统计分析方法。本节主要介绍主成分分析的基本理论和方法,并结合实例讨论该方法在社会、经济研究中的应用。
11.2.1主成分分析的基本思想
在经济实证问题研究中,为了全面、系统地分析问题,必须考虑众多对某经济过程有影
响的因素。所涉及的因素称为指标。在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增大计算量和增加分析问题的复杂性,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多。主成分分析是解决这一问题的理想工具。因为经济问题涉及的众多变量之间既然有一定的相关性,就必然存在着支配作用的共同因素,找出影响某一经济过程的几个综合指标,使综合指标为原来变量的线性组合。综合指标不仅保留了原始变量的主要信息,彼此之间又不相关,又比原始变量具有某些更优越的性质,使得在研究复杂的经济问题时容易抓住主要矛盾。
(1)主成分的几何意义与一般数学模型
1.主成分的几何意义
为了方便,在二维空间中讨论主成分的几何意义。
设有n个样本单位,每个样本单位有两个观测变量,在由变量所确定
的二维平面中,n个样本点所散布的情况如带状,可以看出这n个样本点无论是沿着轴方向或轴方向都具有较大的离散性,其离散的程度可以分别用观测变量的方差和的方差定量地表示。显然,如果只考虑和中的任何一个,那么包含原始数据中的经济信息将会有较大的损失。
如果将轴和轴同时按逆时针方向旋转角度,得到新坐标轴和是两个新
变量。根据旋转变换公式
(11-13)
看到新变量和是原始变量和的线性组合,它的矩阵表示形式为:
(11-14)
其中,为旋转变换矩阵,它是正交矩阵,即有
旋转变换的目的是为了使得n个样本点在轴方向上的离散程度最大,即的方差最大。变量代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量也无损大局。这样,经过上述旋转变换就可以把原始数据的信息集中到轴上对数据中包含的信息起到了浓缩作用。除了可以对包含在中的信息起到浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上n个点的方差大部分都归结在轴上,而轴上的方差很小,和称为原始变量和的综合变量。
主成分分析的一般数学模型
设在个变量所描述的事物总体中抽取一个样本共有n个样本单位,
这样就有原始数据矩阵
(11-15)
其中数据的第一个下标i是样本单位,第二个小标j是第j个变量,即第i个样本单位的第j 个变量的值。为了计算变量间的协方差矩阵,先计算
这样得到矩阵
(11-16)
那么对于变量的相关系数矩阵
(11-17)
其中矩阵
现在问题就归结为寻找一个变换,它能把变量变换成一组互不相关的变量,。假定这个变换是
(11-18)
或写成矩阵形式
(11-19)
其中矩阵
(11-20)
就是要寻找的变换矩阵。
求解阵需满足三个条件:
(a),即为P阶正交阵; (11-21)
(b)之间不相关; (11-22)
(c)的p个分量是按照方差大小排列的。 (11-23)
变换关系式的矩阵形式为:
因为对于变量的协方差矩阵是
要满足求解V阵的第2个条件(11-22),即是互不相关的量,也就是要求它们的协方差矩阵对角型矩阵,即除矩阵的主对角线上元素之外,其余元素都是零。
即
(11-24)
得到
文档评论(0)