第四章主成分分析教程.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章主成分分析教程

《多 元 统 计 分 析》 Multivariate Statistical Analysis 统计学院应用统计学教研室 第四章 主成分分析 【教学目的】 让学生了解主成分分析的背景、基本思想; 掌握主成分分析的基本原理与方法; 掌握主成分分析的操作步骤和基本过程; 学会应用主成分分析解决实际问题。 【教学重点】 主成分分析的几何意义; 主成分分析的基本原理。 §1 概述 什么是主成分分析 1.研究背景 在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。 主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。 概括地说,主成分分析(principal component analysis)就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由Karl Parson于1901年引进的,1933年Hotelling把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。 2.基本思想及意义 哲学理念:抓住问题的主要矛盾。 主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择? 如果将选取的第一个线性组合即第一个综合指标记为,希望它能尽可能多地反映原来指标的信息,即越大,所包含的原指标信息就越多,的方差应该最大,称为第一主成分。 如果第一主成分不足以代表原来个指标的信息,再考虑选取即选择第二个线性组合。为了有效地反映原来的信息,中已包含的信息,无须出现在中,即,称为第二主成分。 仿此可以得到个主成分。 我们可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。 主成分分析的数学模型及几何意义 1.数学模型(总体主成分) 设有个样品,每个样品观测个指标:,得到原始数据资料阵: 。其中,。 其协方差矩阵为 它是一个阶半正定矩阵。设为个常数向量,考虑如下的线性组合 简记为 易知有 如果我们希望用代替原来p个变量,这就要求尽可能地反映原p个变量的信息。这里,“信息”用的方差来度量,即越大,表示所含的中的信息越多。但由方差的表达式可知,必须对加以限制,否则无界。而最方便的限制是要求所有具有单位长度,即 因此,我们希望在约束条件之下,求使达到最大,由此所确定的随机变量称为的第一主成分。 如果第一主成分还不足以反映原变量的信息,考虑采用。为了有效地反映原变量的信息,中已有的信息就不必要再包含在中,用统计的语言来讲,要求与不相关,即 于是,在约束条件及之下,求使达到最大,由此所确定的随机变量称为的第二主成分。 一般地,在约束条件及之下,求使达到最大,由此所确定的随机变量称为的第主成分。 2.主成分的几何意义 从代数学观点看主成分就是的一些特殊的线性组合,而在几何上这些线性组合正是把构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。下面以二元正态变量为例说明主成分的几何意义。 当时,原变量是,设,它们有下图的相关关系: 对于二元正态变量,个点的散布大致是一个椭圆,在其长轴方向取坐标轴,在其短轴方向取坐标轴。这相当于在平面上作一坐标变换,即按逆时针方向旋转角度,得 或 这里的为正交矩阵,即。因此,在坐标系中有如下性质: (1)和为的线性组合; (2)与不相关; (3)与的总方差大部分归结为轴上,而轴上很少。 几何意义:一般情况,个变量组成维空间,个样品点就是维空间的个点,对元正态分布变量来说,找主成分的问题就是找维空间中椭球体的主轴问题。

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档