第六章 主成分分析法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 主成分分析法

第六章 主成分分析法 主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。 引言 主成分分析,也称主分量分析,由皮尔逊(Pearson)于1901年提出,后由霍特林(Hotelling)于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。这时,不需要任何关于概率分布和基本统计模型的假定。这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。 主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。当分析结束后,最后要对主成分做出解释。当主成分用于回归或聚类时,就不需要对主成分做出解释。另外,主成分还有简化变量系统的统计数字特征的作用。对于任意p个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有个参数。经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了个。在对变量系统进行简化时,最重要的是当系统变量被有效地降到2维时(即两个主成分),就可以在平面上描绘每个样本点,以获得直接观察样本点间的相关关系以及样本群点的分布特点和结构。所以,主成分分析使高维数据点的可见性成为可能。在数据信息的分析过程中,对直观图像的观察是一种重要手段,它能更好地协助系统分析人员的思维与判断,及时发现大规模复杂数据群重的普遍规律与特殊现象,极大地体高数据信息的分析效率。在当今的决策支持系统理论与方法的研究中,将抽象空间或者高维空间中的信息以及一些更为复杂现象转换为直观的平面图示是一种重要的研究途径,能够提高决策人员的洞察能力。 主成分分析法来源于实践。例如,从事数据分析工作的人往往面临一张数据表,即数据矩阵。例如,在分析学生学习情况时,得到一张成绩表,该表的列表示某门课程各学生成绩,行表示一个学生的各科成绩。一般而言,我们可以构造一个数据矩阵,列表示变量或指标,行表示相应变量的测量数据。一个数据矩阵阶数往往非常大,使人眼花缭乱,抓不住重点,找不出规律。主成分分析的主要任务就是以某种最优方法综合一张数据表的信息,以达到简化数据矩阵,降低数据维数,从而揭示其主要结构信息,并提出关于数据矩阵所提供信息的合理解释。尤其是,这方面的一个著名成功应用实例是美国统计学家斯通(Stone)在1947年对美国国民经济的研究。他利用美国1929—1938年各年的数据,得到了17个反映国民收入与支出的变量要素,如雇主补贴、消费资料、生产资料、纯公共支出、净增库、股息、利息、以及外贸平衡等等。在进行主成分分析后,用三个变量就取代了原来的17个变量,并且精度高达97.4%。根据经济学知识,斯通给这三个综合变量分别取名为总收入F1、总收入变化率F2、经济发展或衰退的趋势F3。更有意思的是,这三个新变量其实都是可以直接测量的。 主成分分析法的主要降维思想可用如下简单几何观点解释。假设矩阵A是对具有p个变量指标的n个样本所测量的数据矩阵。矩阵A的n行可看作空间Rp中的n个点或向量,表示n个个体,而。主成分分析本质上就是对原坐标系进行平移和旋转变换,使得新坐标的原点与数据群的重心重合,新坐标系的第一个坐标轴与数据变异的最大方向相对应,新坐标系的第二轴与第一轴标准正交,并且对应于数据变异的第二大方向,以此类推。这些新轴分别被称为第一主轴U1,第二主轴U2,…。如果经过舍去少量信息后,主轴能够十分有效地表示原数据的变异情况,则原来的p维空间Rp就被降至m维空间Rm。生成的空间被称为m维主超平面,尤其是当m=2时,就简称为主平面。这样就可以用原样本群点在主超平面上的投影来近似表达原样本群。原样本点在主超平面的第一主轴上的投影称为第一主成分u1,它构成新数据表的第一个分析变量,在主超平面的第二主轴上的投影称为第二主成分u2,它构成新数据表的第二个分析变量,…。记主成分uk均值和方差分别为E(uk)、Var(uk),则主

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档