主成分分析法精华讲义及实例.docVIP

  • 3
  • 0
  • 约2.61千字
  • 约 16页
  • 2021-11-24 发布于浙江
  • 举报
主成分分析法精华讲义及实例 主成分分析 类型:一种处理高维数据的方法。 降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。 一、总体主成分 1.1 定义 设 X1,X2,…,Xp 为某实际问题所涉及的 p 个随机变量。记 X=(X1,X2,…,Xp)T,其协方差矩阵为 T 它是一个 p 阶非负定矩阵。设 T (1) 则有 T i Tj Ti T T (2) 第 i 个主成分: 一般地,在约束条件 li T 及 T 下,求 li 使 Var(Yi)达到最大,由此 li 所确定的 T 称为 X1,X2,…,Xp 的第 i 个主成分。 1.2 总体主成分的计算 设 是 X T 的协方差矩阵,的特征值及相应的正交单位化特 征向量分别为 及 e1,e2,...,ep, 则 X 的第 i 个主成分为 T p (3) 此时 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差 记 Y T 为主成分向量,则 Y=PTX,其中P T T ,且 由此得主成分的总方差为 p p i p i TT i ), 即主成分分析是把 p 个原始变量 X1,X2,…,Xp 的总方差 i p 分解成 p 个互不相关变量 Y1,Y2,…,Yp的方差之和,即 i p 而 。 第 k 个主成分的贡献率: i p ; i m 前m个主成分累计贡献率: i ,它表明前 m 个主成分Y1,Y2,…, i Ym综合提供 X1,X2,…,Xp中信息的能力。 1.3.2 主成分 Yi 与变量 Xj 的相关系数 由于 Y=PTX,故 X=PY,从而 由此可得 Yi 与 Xj 的相关系数为 i ,X j ij (4) 1.4 标准化变量的主成分 在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量 取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了 消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令 * (5) 其中 这时 p) * * * * T 的协方差矩阵便是 T 的相关矩阵 ,其中 *i*j Cov(X,X) . (6) 利用 X 的相关矩阵 设 * * * * T 作主成分分析,有如下结论: 为标准化的随机向量,其协方差矩阵(即 X 的相关的第 i 个主成分为 矩阵)为 * ,则 *T * X * * * * X (7) 并且 p p *i p *i *i (8) 其中 p * 为 的特征值,ei* ***T 为相应于特征值 的正交单位特征向量。 * 第 i 个主成分的贡献率: p ; m 前 m 个主成分的累计贡献率: Yi * p *i ; 与Xi*的相关系数为 *i ,X *j ij。 * 二、样本主成分 前面讨论的是总体主成分,但在实际问题中,一般 (或)是未知的,需 要通过样本来估计。设 T 为取自 X2,...,Xp) T 的一个容量为n的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为 1 n k T (9) 其中 n T 1 n ki 分别以 S 和 R 作为 和的估计,然后按总体主成分分析的方法作样本主成分分析。 三、 例 题 某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如下表所示,试进行主成分分析。 表1 14家企业的利润指标的统计数据 解:样本均值向量为: T , 样本协方差矩阵为: 60.35737.207 45.75716.82524.843 41.21515.50524.33524.423 57.90623.53536.47836.28356.046 71.67229.02949.27849.14675.404103.018 8.6024.7853.6293.6755.0026.8211.137 44.023 2 8 由于S中主对角线元素差异较大,因此我们样本相关矩阵R出发进行主成分分析。样本相关矩阵R为:

文档评论(0)

1亿VIP精品文档

相关文档