主成分分析原理与应用概述.pdfVIP

  • 2
  • 0
  • 约8.86千字
  • 约 39页
  • 2025-10-17 发布于山西
  • 举报

什么是主成分分析?

⚫我们来看一个例子:小学各科成绩

的评估可以用下面的综合成绩来体

现:

⚫a1×語文+a2×数学+a3×自然+

a4×社会科学

⚫确定权重系数的过程就可以看作是

主成分分析的过程,得到的加权成

绩总和就相对于新的综合变量——

主成分

什么是主成分分析?

⚫推而广之,当某一问题需要同时考

虑好几个因素时,我们并不对这些

因素个别处理而是将它们综合起来

处理,这就是PCA。

⚫这样综合处理的原则是使新的综合变

量能够解释大部分原始数据方差。

什么是主成分分析?

⚫由于各种量测到数据通常是以矩阵的形式记录、

表达和的,实际中的很多数据信息往往是重

叠与冗余的。从线性代数的观点来看,就是这些

数据矩阵中存在相关的行或列。因此需要对其进

行处理和提炼,抽取出有意义、独立的变量。

⚫主成分分析(PrincipalComponentAnalysis,简

称PCA)是一种常用的基于变量协方差矩阵对信息

进行处理、压缩和抽提的有效方法。

为什么要根据方差确定主成分?

情形II下总分的方差为0,显然三个学生各科

成绩各有的实际情形,而红色标记的变量对应的

方差最大,可反映原始数据的大部分信息

对主成分的要求

⚫上例可见,用总分有时可以反映原分数表

的情况,保留原有信息,有时则把信息丢

尽,原理的情况和差异。根据总

分所对应的方差可以确定其代表了多

例的原始数据(分数)信息。

⚫一般来说,我们希望能用一个或少数几个

综合指标(分数)来代替原来分数表做统

计分析,而且希望新的综合指标能够尽可

能地保留原有信息,并具有最大的方差。

主成分分析的目的

⚫压缩变量个数,用较少的变量去解释原始数据

中的大部分变量,剔除冗余信息。即将许多相关

性很高的变量转化成个数较少、能解释大部分原

始数据方差且彼此互相独立的几个新变量,也就

是所谓的主成分。

⚫这样就可以消除原始变量间存在的共线性,克

服由此造成的运算不稳定、矩阵等问题。

主成分得分

(潜变量-latentvariable)

PC(1)=a11X1+a12X2+…+a1pXp

PC(2)=a21X1+a22X2+…+a2pXp

.

.

.

PC(m)=am1X1+am2X2+…+ampXp

选择加权系数a11…,a1p时要能使PC(1)得到最大

解释方差的能力,而PC(2)则是能对原始数据中尚未

被PC(1)解释的差异部分拥有有最大解释能力,若

以此类推,我们可以找出m个PC出來(m≦p)

主成分轴、载荷向量

⚫原始数据前的加权系数决定了新的综合变

量主成分(得分)的大小和性质,通常称

为主成分轴或者载荷向量(载荷轴、载荷

系数)。

⚫主成分分析的关键就是确定这些系数,

这些系数构成了新的坐标系,将原始变

量在新的坐标系下投影就可求得新坐标

系下的变量值(主成分得分)。

三变量主成分分析示意图

⚫PC1=ax+ax+ax

1i12i23i3

⚫PC2bx+bx+bx

1i12i23i3

对三下的一组样本(设样本数为n),

其原始变量的坐标系为x1,x2,x3,在对原始坐

标系经过坐标平移、尺度伸缩、旋转等变换

文档评论(0)

1亿VIP精品文档

相关文档