- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第章 利用PCA来简化数据
10.1
多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,相关性,势必增加了分析问题的复杂性。举一个简单的例子,现在需要进行了一项关于美国国民经济的研究,现有美国1929一1938年各年的数据,从中可以得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。要如何介绍美国国民收入与支出的情况?是否需要将这17个变量信息面面俱到的罗列出来呢?这样要素太多、信息量太过庞大,增加问题的复杂性和分析难度,不容易让别人抓住主要信息,工作量也会大大提高。并且要素与要素之间可能存在相关关系,这样会导致信息重叠,分析偏误。
17个变量,令人吃惊的是精度达到了97.4%。
主成分分析方法能够在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,在一个低维空间要比在一个高维空间处理问题容易得多。如此能够使问题得到更好的解决。
10.2 主成分分析的概念及基本
10.2.1 主成分分析的相关概念
主成分分析(Principal component analysis)缩写为PCA。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主成分分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。
主成分分析采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分与原始变量之间的具有以下几种关系:
(1)主成分保留了原始变量绝大多数信息。
(2)主成分的个数大大少于原始变量的数目。
(3)各个主成分之间互不相关。
(4)每个主成分都是原始变量的线性组合。
10.2.2 主成分分析的基本原理
主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望越大,表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来个变量的信息,再考虑选取即第二个线性组合,为了有效地反映原来信息,已有的信息就不需要再出现在中,用数学语言表达就是要求,称为第二主成分,依此类推可以构造出第三、四……第个主成分。
10.3
概括起来说,主成分分析主要由以下几个方面的作用。
1.主成分分析能降低所研究的数据空间的维数。即用研究维的空间代替维的空间,而低维的空间代替高维的空间所损失的信息很少。即:使只有一个主成分(即)时,这个仍是使用全部变量(个)得到的。例如要计算的均值也得使用全部的均值。在所选的前个主成分中,如果某个的系数全部近似于零的话,就可以把这个删除,这也是一种删除多余变量的方法。
2.有时可通过因子负荷的结论,弄清变量间的某些关系。
3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。
4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量做回归分析。
5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。
10.4 主成分分析的数学模型
一个实际问题中,有个要素,将其看作个随机变量,对个变量进行线性组合,得到新的变量,新变量能够充分反应原始变量的信息,并且相互独立。
对于一个样本资料,观测个变量,个样品的数据资料阵为:
其中:
主成分
文档评论(0)