- 121
- 0
- 约3.13千字
- 约 10页
- 2018-09-02 发布于湖北
- 举报
第五章 主成分分析
第二节 主成分的导出
及相关概念
多元统计分析
第二节 主成分的导出
主成分分析的目标:
1、从相关的X1, X2,… Xk,求出相互独立的新综合变量(主成分)Y1,Y2…Yk。
2、Y=( Y1,Y2…Yk )’ 所反映信息的含量无遗漏或损失的指标—方差,等于X=( X1,X2…Xk )’的方差 。
X与Y之间的计算关系是:
如何求解主成分?
一、从协方差矩阵出发求解主成分
(一)第一主成分:
设X的协方差阵为
由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得
其中1, 2,…, p为Σx的特征根,不妨假设1 2 … p 。而U恰好是由特征根相对应的特征向量所组成的正交阵。
下面我们来看,是否由U的第一列元素所构成为原始
变量的线性组合是否有最大的方差。
证明:设有P维正交向量
当且仅当a1 =u1时,即 时,有最大的方差1。因为Var(F1)=U’1xU1=1。
如果第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分
在约束条件 下,寻找第二主成分
因为
所以
则,对p维向量 ,有
所以如果取线性变换:
则 的方差次大。
类推
写为矩阵形式:
例1:设 的协方差矩阵为:
从协方差矩阵出发,求解主成分.
(1)求协方差矩阵的特征根
依据 求解.
(2)求特征根对应的特征向量
(3)主成分:
(4)各主成分的贡献率及累计贡献率:
第一主成分贡献率:
第二主成分贡献率:
第三主成分贡献率:
第一和第二主成分的累计贡献率:
由此可将以前三元的问题降维为两维问题.第一和第二主成分包含了以前变量的绝大部分信息97.875%.
例2:设 的协方差矩阵为:
从协方差矩阵出发,求解主成分.
(1)求协方差矩阵的特征根
依据 求解.
(2)求特征根对应的特征向量
设第一特征根对应的特征向量为:
则有:
类似可计算出第二,第三特征根对应的特征向量:
第一,二,三主成分表达式:
由前面的特征根可计算各主成分的贡献率及累计贡献率:
第一主成分贡献率
第二主成分贡献率:
从协方差矩阵出发求解主成分的步骤:
1、求解各观测变量 的协方差矩阵。
2、由X的协方差阵Σx,求出其特征根,即解方程 ,可得特征根 。
3、求解 可得各特征根对应的特征向量U1,U2,…,Up 。
其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系数向量·····
4、计算累积贡献率,给出恰当的主成分个数。
5、计算所选出的k个主成分的得分。将原始数据的中心化值:
代入前k个主成分的表达式,分别计算出各样本k个主成分的得分。
二、由相关矩阵求解主成分
当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。
量纲对于主成分分析的影响及消除方法——对数据进行标准化处理,以使每一个变量的均值为0,方差为1。
数据标准化后,总体的协方差矩阵与总体的相关系数相等.
主成分与原始变量的关系式为:
例:企业经济效益综合分析。用5个经济指标进行考核。用相关系数矩阵法求解主成分。其中计算出的相关系数矩阵为:
(1)计算其特征值:
(2)各特征值的累计方差贡献率为:
(3)从以上方差贡献率看,k=2时主成分个数较为合适。
对应的特征向量为:
(4)建立第一和第二主成分:
从相关系数矩阵出发求解主成分的步骤:
1、标准化各观测变量数据。
2、求解标准化各观测变量的相关系数矩阵。
2、根据矩阵知识 求解相关系数矩阵的特征根。
3、求解各特征根对应的特征向量。
其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系数向量·····
三、主成分性质
1,主成分的协方差阵为对角阵
2、P个随机变量的总方差为协方差矩阵的所有特征根之和
说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。
当进行相关系数矩阵求解主成分,各变量标准化后,则p个主成分总的方差之和等于p。
3、贡献率:
第i个主成分的方差在全部方差中所占比重 ,称为贡献率,反映了原来P个指标多大的信息,有多大
原创力文档

文档评论(0)