统计分析方法 主成分分析与因子分析 第一部分主成分分析 我们经常遇到有很多变量的数据。 在如此多的变量之中,有很多是相关的。 人们希望能够找出它们的少数“代表”(综合指标)来对它们进行描述。 下面介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。 主成分法的基本思想 考虑二维情形,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值; 这些数据大致分布于一个椭圆形的区域中,如下图所示: 这个椭圆有一个长轴和一个短轴。 在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维效果越好。 主成分法的数学模型 实际使用过程中,先将变量标准化 运用拉格朗日乘子法求约束条件下的极值: 令 得: 结论(以y1为例) 原变量相关系数矩阵的最大特征值即为y1的方差, 第二部分因子分析 一、因子分析的作用 因子分析的作用主要有两个: 1.数据简化 可为进一步
原创力文档

文档评论(0)