第7章__主成分剖析.ppt

下载文档 降价啦

8
0
约9.04千字
约 58页
2016-07-01 发布于湖北
举报
版权申诉
保障服务

第7章__主成分剖析.ppt

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1、无偏估计 2、矩估计、极大似然估计 3、最小方差无偏估计 4、置信区间 5、假设检验 6、后验分布 7、一元线性回归、显著性检验一引言多元统计分析处理的是多变量（多指标）问题。在实际问题中，为了尽可能完整地获取有关的信息，往往需要考虑众多的变量，这虽然可以避免重要信息的遗漏，但增加了分析的复杂性。同一问题所涉及到的众多变量之间会存在一定的相关性，这种相关性会使各变量的信息有所“重叠”。人们自然希望通过克服相关性、重叠性，即对这些彼此相关的变量加以“改造”，用较少的变量来代替原来较多的变量，而这种代替可以反映原来多个变量的大部分信息，从而通过对为数较少的新变量的分析达到解决问题的目的。这实际上是一种“降维”的思想。主成分分析也称主分量分析，是由美国统计学家Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式，从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时，再考虑用第二个线性组合继续这个快速提取的过程，……，直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想主成分分析着眼于考虑变量的“分散性”信息,主要目的是对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低原变量的维数,即用较少的“新变量”代替原来的各变量,即：(1)变量的降维；(2)主成分的解释。一般说来，在主成分分析适用的场合，用较少的主成分就可以得到较多的信息量。以各个主成分为分量，就得到一个更低维的随机向量；因此，通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。我们知道，当一个变量只取一个数据时，这个变量（数据）提供的信息量是非常有限的，当这个变量取一系列不同数据时，我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大，说明它对各种场景的“遍历性”越强，提供的信息就更加充分，信息量就越大。主成分分析中的信息，就是指标的变异性，用标准差或方差表示它。主成分分析的数学模型是：设p个变量构成的p维随机向量为X = (X1，…，Xp)′。对X作正交变换，令Y = T′X，其中T为正交阵，要求Y的各分量是不相关的，并且Y的第一个分量的方差是最大的，第二个分量的方差次之，……，等等。为了保持信息不丢失，Y的各分量方差和与X的各分量方差和相等。二主成分的几何意义及数学推导一、主成分的几何意义 Y1基本上反映了二维信息. 主成分分析数学模型中的正交变换，在几何上就是作一个坐标旋转。因此，主成分分析在二维空间中有明显的几何意义。假设共有n个样品，每个样品都测量了两个指标（X1，X2），它们大致分布在一个椭圆内如图所示。显然，在坐标系x1Ox2中，单独看这n个点的分量X1和X2，它们沿着x1方向和x2方向都具有较大的离散性，其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量，那么包含在另一分量中的信息将会损失，因此，直接舍弃某个分量不是“降维”的有效办法。如果我们将该坐标系按逆时针方向旋转某个角度θ变成新坐标系 y1Oy2,旋转公式为因此，欲将二维空间的点投影到某个一维方向上，则选择y1轴方向能使信息的损失最小。 Var(Y1)达到最大，Var(Y2)相对较小，称Y1为第一主成分，称Y2为第二主成分。第一主成分的效果与椭圆的形状有很大的关系，椭圆越是扁平，n个点在y1轴上的方差就相对越大，在y2轴上的方差就相对越小，用第一主成分代替所有样品所造成的信息损失也就越小。若数据在Oy2方向上分散性很小，则可用Y1取代(X1,X2),完成降维。主成分分析即构造原变量的一系列线性组合，使其(样本)方差达到最大。考虑两种极端的情形：一种是椭圆的长轴与短轴的长度相等，即椭圆变成圆，第一主成分只含有二维空间点的约一半信息，若仅用这一个综合变量，则将损失约50％的信息，这显然是不可取的。造成它的原因是，原始变量X1和X2的相关程度几乎为零，也就是说，它们所包含的信息几乎不重迭，因此无法用一个一维的综合变量来代替。另一种是椭圆扁平到了极限，变成y1轴上的一条线，第一主成分包含有二维空间点的全部信息，仅用这一个综合变量代替原始数据不会有任何的信息损失，此时的主成分分析效果是非常理想的，其原因是，第二主成分不包含任何信息，舍弃它当然没有信息损失。二、主成分的数学推导显然，对于Y1,…,YP有我们希望寻找一组新的变量Y1,…,Ym (m≤p)，这组新的变量要求充分地反映原变量X1,…,Xp的信息，而且互不相关. 这样，我们所要解决的问题就转化为:在新的变量Y1,…,Ym互不相关的条件下，求Ti使得达到最大。我们下面将借助投影寻踪（Proje