- 29
- 0
- 约2.72万字
- 约 21页
- 2016-11-29 发布于湖北
- 举报
§2 主成分分析
2.1 主成分的基本思想
主成分分析(principal component analysis)也称主分量分析,是1901年提出,再由霍特林(Hotelling1933)加以发展的一种统计方法.
基本思想:主要目的利用降维的思想,在损失很少信息的前提下把多个变量(指标)转化为几个综合指标(变量)的多元统计方法.转化成的综合指标称为主成分,每个主成分是原始变量的线性组合且各个主成分之间互不相关,主成分保留原始变量的绝大部分信息
问题:100名学生的六门课程的成绩:
问:能否把6个变量X1,X2,…,X6(数学、物理等6科成绩),用一两个综合变量
Y1,Y2来表示?Y1,Y2包含有多少原来的信息呢?能否用综合变量对成绩排序或进行其他分析?
例中每个观测值是6维空间(X1,X2,…,X6)中的点, 共100个。希望把6维空间用低维空间(Y1,Y2)表示.
2.2 主成分分析的几何意义
设有两变量(数学、语文成绩),构成二维随机向量,.观测次数据,,,则样本点在坐标系下基本分布在一条直线上如图,在上分散性最大,而在与垂直的方向上变化很小.为了分析更清楚,做线性变换
是正交矩阵
相当于坐标系逆时针旋转角得新坐标系,原观测点在新坐标系下可表为
旋转后数据和分别反映了在垂直方向上数据的分散性信息.由图知在轴上数据值分散性最大(具最大样本方差),说明最大.而垂直方
原创力文档

文档评论(0)