第10讲主成分分析与因子分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10讲主成分分析与因子分析

1. 引言 引例1 居民生活质量综合评价。 为了全面分析我国各省市自治区的城市居民生活质量,选取如下六个指标:人均工资、人均住房面积、人均道路面积、人均公园绿地面积、商品销售总额、旅游外汇收入。 假设给定了各省市自治区的上述 六个指标数据,试对各省市自治区的居民生活质量进行综合评价。 事实上,上述六个指标存在一定的相关性,应该将它们综合成几个不相关的指标后再进行分析。 引例2 量体裁衣。 上衣尺寸特征有:领长、袖长、衣长、胸围、袖宽、肩宽等,每个人 都有自己的尺寸。服装厂要生产一批上衣,不可能按照这些指标一一组合生产,而是将这些指标综合成一个指标,如特大码(XL)、大码(L)、中码(M)等。 在众多研究领域中,人们为了避免遗漏重要信息,往往选取与之相关的较多指标进行分析,这些指标在多 元统计中也称为“变量”。例如在评价企业业绩时,要考虑利润、产值、产品数量、产品质量、固定资产、流动资产等。若要全部列出,可能有几十个指标。 但选取的变量过多,不但会增加计算量,而且由于这些变量间可能高度相关,从而造成信息的重叠,给问 题的分析和解释带来困难,甚至会影响最终统计分析的结果。例如在进行回归分析时,变量间的多重共线性会使得回归分析的结果受到质疑。 因此,人们希望对这些相关的众多变量进行“降维”,即用少数不相关的新变量反映原始变量所提供的绝大部分信息,通过对新变量的分析解决 问题。由这几个新变量出发还可以得到一个总的指标,按此总指标来进行排序、分类,问题就可能简单得多。 降维的常用统计方法有主成分分析和因子分析。 主成分分析由Pearson于1901年首先提出,后由Hotelling于1933年进行了发展。 主成分利用降维的思想,在保证信息损失最少的原则下,将多个原始指标转化为几个综合指标。 转化后的综合指标称为主成分,主成分是原始变量的线性组合,且主成分间互不相关。 需要注意的是,主成分分析往往只是一个中间过程,需要与其它方法 结合使用。也就是说,主成分分析不能看成是研究的最终结果,而应继续将主成分分析的结果应用于其它统计方法以最终解决问题。例如,可以用主成分进行回归分析,避免多重共线性,也可以对主成分作聚类分析、判别分析等。 在数学建模中,主成分分析常用 于综合评价,即用主成分给评价对象打分排序和评价。 2. 主成分分析的几何意义与基本思想 假设从二元总体x=(x1,x2)中抽取容量为n的样本,其散点图如下: 从图中可以看出,散点大致分布在一个狭长的椭圆内,x1和x2呈现出明显的线性相关性。这n个样本在x1和x2方向具有相似的离散度,离散度可用x1和x2的方差表示。换句话说, x1和x2包含了大致相等的信息,丢掉其中任意一个变量,都会损失较多的信息。 若将坐标轴旋转一个角度θ,使得x1轴旋转到椭圆的长轴方向y1,x2轴旋转到椭圆的短轴方向y2,即 易见,n个点在新坐标系下的坐标y1和y2几乎不相关,并且y1的方差要比y2 的方差大得多,即 y1包含了原始数 据中的大部分信息,此时丢掉变量y2,信息的损失是比较小的。y1称为第一主成分,y2称为第二主成分。 主成分分析其实就是坐标旋转,新坐标轴方向就是各主成分方向,新旧坐标转换关系式就是各主成分表达式。 主成分分析的基本思想是:利用 线性变换,将原有相关性较强的p个指标重新组合成p个新的相关性较弱的综合指标。通过选择适当的线性变换系数,使得新指标中的第一个指标方差最大(如有必要,还需使第二个指标方差尽可能地大),从而最终可用较少的指标(如第1, 2个)表示原 p个指标中足够多的信息,即降维。 3. 主成分分析的基本原理 设总体x=(x1,x2,…,xp)T为p维,且x的期望和协方差矩阵均存在,分别记为E(x)=μ, var(x)=∑。 根据主成分分析的基本思想,考虑旋转变换(正交变换) 其中a1, a2,…, ap均为单位列向量。 设 为∑的p个特征值,则可以证明: y1的方差最大值为λ1。 由于y1的方差最大,即y1包含的信息最多,所以称之为第一主成分。 如果第一主成分包含的信息不够充分,还应考虑第二主成分。 同理,y2的方差最大值为λ2,称y2为第二主成分。

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档