第二节主成分导出.docxVIP

  • 121
  • 0
  • 约3.13千字
  • 约 10页
  • 2018-09-02 发布于湖北
  • 举报
第五章 主成分分析 第二节 主成分的导出 及相关概念 多元统计分析 第二节 主成分的导出 主成分分析的目标: 1、从相关的X1, X2,… Xk,求出相互独立的新综合变量(主成分)Y1,Y2…Yk。 2、Y=( Y1,Y2…Yk )’ 所反映信息的含量无遗漏或损失的指标—方差,等于X=( X1,X2…Xk )’的方差 。 X与Y之间的计算关系是: 如何求解主成分? 一、从协方差矩阵出发求解主成分 (一)第一主成分: 设X的协方差阵为 由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得 其中1, 2,…, p为Σx的特征根,不妨假设1 2  … p 。而U恰好是由特征根相对应的特征向量所组成的正交阵。 下面我们来看,是否由U的第一列元素所构成为原始 变量的线性组合是否有最大的方差。 证明:设有P维正交向量 当且仅当a1 =u1时,即 时,有最大的方差1。因为Var(F1)=U’1xU1=1。 如果第一主成分的信息不够,则需要寻找第二主成分。 (二) 第二主成分 在约束条件 下,寻找第二主成分 因为 所以 则,对p维向量 ,有 所以如果取线性变换: 则 的方差次大。 类推 写为矩阵形式: 例1:设        的协方差矩阵为: 从协方差矩阵出发,求解主成分. (1)求协方差矩阵的特征根 依据      求解. (2)求特征根对应的特征向量 (3)主成分: (4)各主成分的贡献率及累计贡献率: 第一主成分贡献率: 第二主成分贡献率: 第三主成分贡献率: 第一和第二主成分的累计贡献率:  由此可将以前三元的问题降维为两维问题.第一和第二主成分包含了以前变量的绝大部分信息97.875%. 例2:设        的协方差矩阵为: 从协方差矩阵出发,求解主成分. (1)求协方差矩阵的特征根 依据      求解. (2)求特征根对应的特征向量 设第一特征根对应的特征向量为: 则有: 类似可计算出第二,第三特征根对应的特征向量: 第一,二,三主成分表达式: 由前面的特征根可计算各主成分的贡献率及累计贡献率: 第一主成分贡献率 第二主成分贡献率: 从协方差矩阵出发求解主成分的步骤: 1、求解各观测变量 的协方差矩阵。 2、由X的协方差阵Σx,求出其特征根,即解方程 ,可得特征根 。 3、求解 可得各特征根对应的特征向量U1,U2,…,Up 。 其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系数向量····· 4、计算累积贡献率,给出恰当的主成分个数。 5、计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各样本k个主成分的得分。 二、由相关矩阵求解主成分 当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 量纲对于主成分分析的影响及消除方法——对数据进行标准化处理,以使每一个变量的均值为0,方差为1。 数据标准化后,总体的协方差矩阵与总体的相关系数相等. 主成分与原始变量的关系式为: 例:企业经济效益综合分析。用5个经济指标进行考核。用相关系数矩阵法求解主成分。其中计算出的相关系数矩阵为: (1)计算其特征值: (2)各特征值的累计方差贡献率为: (3)从以上方差贡献率看,k=2时主成分个数较为合适。 对应的特征向量为: (4)建立第一和第二主成分: 从相关系数矩阵出发求解主成分的步骤: 1、标准化各观测变量数据。 2、求解标准化各观测变量的相关系数矩阵。 2、根据矩阵知识 求解相关系数矩阵的特征根。 3、求解各特征根对应的特征向量。 其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系数向量····· 三、主成分性质 1,主成分的协方差阵为对角阵 2、P个随机变量的总方差为协方差矩阵的所有特征根之和 说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。 当进行相关系数矩阵求解主成分,各变量标准化后,则p个主成分总的方差之和等于p。 3、贡献率: 第i个主成分的方差在全部方差中所占比重 ,称为贡献率,反映了原来P个指标多大的信息,有多大

文档评论(0)

1亿VIP精品文档

相关文档