主成分分析原理与应用概述.pdfVIP

下载本文档

2
0
约8.86千字
约 39页
2025-10-17 发布于山西
举报

主成分分析原理与应用概述.pdf

什么是主成分分析？

⚫我们来看一个例子：小学各科成绩

的评估可以用下面的综合成绩来体

现：

⚫a1×語文＋a2×数学＋a3×自然＋

a4×社会科学

⚫确定权重系数的过程就可以看作是

主成分分析的过程，得到的加权成

绩总和就相对于新的综合变量——

主成分

什么是主成分分析？

⚫推而广之，当某一问题需要同时考

虑好几个因素时，我们并不对这些

因素个别处理而是将它们综合起来

处理，这就是PCA。

⚫这样综合处理的原则是使新的综合变

量能够解释大部分原始数据方差。

什么是主成分分析？

⚫由于各种量测到数据通常是以矩阵的形式记录、

表达和的，实际中的很多数据信息往往是重

叠与冗余的。从线性代数的观点来看，就是这些

数据矩阵中存在相关的行或列。因此需要对其进

行处理和提炼，抽取出有意义、独立的变量。

⚫主成分分析(PrincipalComponentAnalysis,简

称PCA)是一种常用的基于变量协方差矩阵对信息

进行处理、压缩和抽提的有效方法。

为什么要根据方差确定主成分？

情形II下总分的方差为0，显然三个学生各科

成绩各有的实际情形，而红色标记的变量对应的

方差最大，可反映原始数据的大部分信息

对主成分的要求

⚫上例可见，用总分有时可以反映原分数表

的情况，保留原有信息，有时则把信息丢

尽，原理的情况和差异。根据总

分所对应的方差可以确定其代表了多

例的原始数据（分数）信息。

⚫一般来说，我们希望能用一个或少数几个

综合指标（分数）来代替原来分数表做统

计分析，而且希望新的综合指标能够尽可

能地保留原有信息，并具有最大的方差。

主成分分析的目的

⚫压缩变量个数，用较少的变量去解释原始数据

中的大部分变量，剔除冗余信息。即将许多相关

性很高的变量转化成个数较少、能解释大部分原

始数据方差且彼此互相独立的几个新变量，也就

是所谓的主成分。

⚫这样就可以消除原始变量间存在的共线性，克

服由此造成的运算不稳定、矩阵等问题。

主成分得分

（潜变量－latentvariable）

PC(1)=a11X1+a12X2+…+a1pXp

PC(2)=a21X1+a22X2+…+a2pXp

PC(m)=am1X1+am2X2+…+ampXp

选择加权系数a11…，a1p时要能使PC(1)得到最大

解释方差的能力,而PC(2)则是能对原始数据中尚未

被PC(1)解释的差异部分拥有有最大解释能力，若

以此类推，我们可以找出m个PC出來(m≦p)

主成分轴、载荷向量

⚫原始数据前的加权系数决定了新的综合变

量主成分（得分）的大小和性质，通常称

为主成分轴或者载荷向量（载荷轴、载荷

系数）。

⚫主成分分析的关键就是确定这些系数，

这些系数构成了新的坐标系，将原始变

量在新的坐标系下投影就可求得新坐标

系下的变量值（主成分得分）。

三变量主成分分析示意图

⚫PC1=ax+ax+ax

1i12i23i3

⚫PC2bx+bx+bx

1i12i23i3

对三下的一组样本（设样本数为n），

其原始变量的坐标系为x1,x2,x3，在对原始坐

标系经过坐标平移、尺度伸缩、旋转等变换

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

主成分分析原理与应用概述.pdfVIP