第三部分主成分分析学习课件.pptVIP

  • 4
  • 0
  • 约 55页
  • 2016-12-06 发布于江苏
  • 举报
第三章 主成分分析 主要内容 第一节 主成分的基本原理 第二节 主成分的数学原理 第三节 主成分分析在经济指标综合评价中的应用 第四节 主成分回归分析 推荐阅读 主成分概念首先由 Karl Parson在1901年引进,当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量。 在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。 主成分分析是考察多个数值变量间相关性的一种多元统计方法,它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构。 导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关。 一、主成分分析的基本思想 将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。 以两个指标为例,信息总量以总方差表示: 其中y1、y2分别都是x1、x2的线性组合,并且信息尽可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1来分析问题,起到了降维的作用。 主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析事物的一种方法。 二、几何解释 旋转变换的目的是为了使得n个样本点在y1轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量y2也损失不多的信息。 Y1与y2除起了浓缩作用外,还具有不相关性。 Y1称为第一主成分,y2称为第二主成分。 推广开来,对于p维总体 ,寻求正交变换 ,使得 在所有正交变换中,所选正交矩阵U,使 最大; 与 不相关;并且在所有与 不相关的变量中 最大; 与 、不相关,同时在所有与 、 不相关的变量中 最大;依次类推。 为 的主成分总体, 为 第一主成分, 为 第二主成分。 第二节 主成分分析的数学原理 对原有变量作坐标变换, 要求: 如果z1=u1’x满足① ② 则称z1为x的第一主成分。 若z1不足以代表原变量所包含的信息,就考虑采用z2。 Z2满足① ② ③ Z2为第二主成分 一、主成分总体存在的必要条件 对于P维总体 ,其主成分总体 存在的必要条件是,相应正交矩阵U满足条件 其中 证明: 从公式的计算推导可以发现,主成分方程中的系数向量U恰好是原有变量协方差矩阵的特征向量,其特征根是主成分的方差。 二、主成分总体存在的充分条件 只要证明其他任意存在的一个正交矩阵L,使得 中 ,由L矩阵所产生的主成分方差永远都比相应的U矩阵产生的方差小 三、量纲对于主成分分析的影响及消除方法 对数据进行标准化处理,以使每一个变量的均值为0,方差为1。 数据标准化后,总体的协方差矩阵与总体的相关系数相等. 四、样本主成分 变量X 样本协方差为总体协方差的无偏估计 相关矩阵R为总体相关矩阵的估计 若X已标准化,则可用相关矩阵代替协方差矩阵 将R的特征根依大小顺序排列 其对应的特征向量记为U1,U2,…,Up 说明y1有最大方差,y2有次大方差。。。 五、样本主成分的性质 1、第K个主成分yk的系数向量是第K个特征根λk所对应的标准化特征向量。 2、第K个主成分的方差为第K个特征根λ k,且任意两个主成分都是不相关的,也就是y1,y2,…,yp的样本协方差矩阵是对角矩阵 3、样本主成分的总方差等于原变量样本的总方差,为p 4、第K个样本主成分与第j个变量样本之间的相关系数为: (因子载荷量) 六、主成分模型中各统计量的意义 1、主成分的方差贡献率: 这个值越大,表明第i主成分综合信息的能力越强。 2、主成分的累计贡献率 表明取前几个主成分基本包含了全部测量指标所具有信息的百分率。 七、主成分个数的选取 1.累积贡献率达到85%以上 2.根据特征根的变化来确定 八、主成分分析的基本步骤及spss实现 1.将原始数据进行标准化处理 2.计算样本相关矩阵R 3.求相关矩阵R的特征值与特征向量,并计算贡献率 4.选择主成分 5.对所选主成分做经济解释 Spss实现: 1.analyze-descrip

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档