第2讲主成分分析概述.docVIP

  • 29
  • 0
  • 约2.72万字
  • 约 21页
  • 2016-11-29 发布于湖北
  • 举报
§2 主成分分析 2.1 主成分的基本思想 主成分分析(principal component analysis)也称主分量分析,是1901年提出,再由霍特林(Hotelling1933)加以发展的一种统计方法. 基本思想:主要目的利用降维的思想,在损失很少信息的前提下把多个变量(指标)转化为几个综合指标(变量)的多元统计方法.转化成的综合指标称为主成分,每个主成分是原始变量的线性组合且各个主成分之间互不相关,主成分保留原始变量的绝大部分信息 问题:100名学生的六门课程的成绩: 问:能否把6个变量X1,X2,…,X6(数学、物理等6科成绩),用一两个综合变量 Y1,Y2来表示?Y1,Y2包含有多少原来的信息呢?能否用综合变量对成绩排序或进行其他分析? 例中每个观测值是6维空间(X1,X2,…,X6)中的点, 共100个。希望把6维空间用低维空间(Y1,Y2)表示. 2.2 主成分分析的几何意义 设有两变量(数学、语文成绩),构成二维随机向量,.观测次数据,,,则样本点在坐标系下基本分布在一条直线上如图,在上分散性最大,而在与垂直的方向上变化很小.为了分析更清楚,做线性变换 是正交矩阵 相当于坐标系逆时针旋转角得新坐标系,原观测点在新坐标系下可表为 旋转后数据和分别反映了在垂直方向上数据的分散性信息.由图知在轴上数据值分散性最大(具最大样本方差),说明最大.而垂直方

文档评论(0)

1亿VIP精品文档

相关文档