第10章-主成分分析与因素分析.pptVIP

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第10章-主成分分析与因素分析

第10章 主成分分析与因子分析 Outline 第一节 主成分分析 第二节 因素分析 第三节 实例分析 主成分分析和因子分析 Principal Component Analysis Factor Analysis 在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差 为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息 主成分分析和因子分子正是解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观 第一节 主成分分析 一、主成分分析的基本原理 二、主分量的导出 什么是主成分分析? 2008年8月 主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性一种多元统计方法 研究如何通过少数几个主成分principal component来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释 常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释 一、主成分分析的基本思想 这两个相关变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理 假定只有两个变量x1和x2,从散点图可见两个变量存在相关关系,这意味着两个变对量提供的信息有重叠 如果把两个变量用一个变量来表示,同时这一个新的变量又尽可能包含原来的两个变量的信息,这就是降维的过程。椭圆中有一个长轴和一个短轴,都称为主轴。在长轴方向,数据的变化明显较大,而短轴方向变化则较小 如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量和原始变量间存在一定的数学换算关系,同时这两个新变量之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而短轴变量只携带了一小部分变化的信息(变异) 此时,只需要用长轴方向的变量就可以代表原来两个变量的信息。这样也就把原来的两个变量降维成了一个变量。长短轴相差越大,降维也就越合理 图示 每个变量都有一个坐标轴,所以有几个变量就有几主轴。首先把椭球的各个主轴都找出来,再用代表大多数数据信息的最长的几个轴作为新变量,这样,降维过程也就完成了。找出的这些新变量是原来变量的线性组合,叫做主成分。 主成分的选择标准 选择标准是什么? 被选的主成分所代表的主轴的长度之和占了主轴总程度之和的大部分。在统计上,主成分所代表的原始变量的信息用其方差来表示。因此,所选择的第一个主成分是所有主成分中的方差最大者,即Var(yi)最大。如果第一个主成分不足以代表原来的个变量,在考虑选择第二个主成分,依次类推。这些主成分互不相关,且方差递减。 —根据主成分贡献率 一般来说,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分。 -根据特征根的大小 一般情况下,当特征根小于1时,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量解的释力度大。 选择主成分的数量 究竟选择几个主成分才合适呢? 一般要求所选主成分的方差总和占全部方差的80%以上就可以了。当然,这只是一个大体标准,具体选择几个要看实际情况。如果原来的变量之间的相关程度高,降维的效果就会好一些,所选的主成分就会少一些,如果原来的变量之间本身就不怎么相关,降维的效果自然就不好。 主成分分析的步骤 对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响 根据标准化后的数据矩阵求出相关系数矩阵 求出协方差矩阵的特征根和特征向量 确定主成分,并对各主成分所包含的信息给予适当的解释 第二节 因素分析 一、因素分析的基本原理 二、共同因素常数的确定及负荷矩阵的具体求法 三、正交旋转与斜交旋转 什么是因素分析? factor analysis 由Charles Spearman于1904年首次提出的。与主成分分析类似,它们都是要找出少数几个新的变量来代替原始变量。 不同之处:主成分分析中的主成分个数与原始变量个数是一样的,即有几个变量就有几个主成分,只不过最后我们确定了少数几个主成分而已。而因子分析则需要事先确定要找几个成分,也称为因子(factor),然后将原始变量综合为少数的几个因子,以再现原始变量与因子之间的关系,一般来说,因子的个数会远远少于原始变量的个数。因子分析可以看作是主成分分析的推广和扩展,但它对问题的研究更深入、更细致一些。实际上,主成分分析可以看作是因子分析的一个特例 简言之,因子分析是通过对变量之间关系的研究,找出能综合原始变量的少数几个因子,使得少数因子能够反映原始变量的绝大部分信息,然

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档