1第1章主成分分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1第1章主成分分析

第一章 主成分分析;主成分分析的重点;一、主成分分析的基本思想;主成分分析得到的主成分与原始变量之间的关系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关。 4、每个主成分都是原始变量的线性组合。 ;主成分分析的运用: 1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析(Cluster)中变量的数目 3、用来检查异常点 4、用来作多重共线性鉴定 5、用来做原来数据的常态检定 ;二、数学模型;这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。 ;满足如下的条件: 1、每个主成分的系数平方和为1。即 2、主成分之间相互独立,即无重叠的信息。即 3、主成分的方差依次???减,重要性依次递减,即 F1,F2,…,Fp分别称为原变量的第一、第二、…、第p个主成分。;了解了主成分分析的基本思想、数学模型后,问题的关键: 1、如何进行主成分分析?(主成分分析的方法) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 2、如何确定主成分个数? 主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 3、如何解释主成分所包含的经济意义? ;四、总体主成分的求解及其性质;(3)任一k阶的实对称矩阵C的性质: A、实对称矩阵C的非零特征根的数目=C的秩 B、k阶的实对称矩阵存在k个实特征根 C、实对称矩阵的不同特征根的特征向量是正交的 D、若 是实对称矩阵C的单位特征向量,则 若矩阵 ,是由特征向量 所构成的,则有:;主成分分析的目标: 1、从相关的X1, X2,…,Xk ,求出相互独立的新综合变量(主成分)Y1,Y2 ,…,Yk。 2、Y=(Y1,Y2,…,Yk)’所反映信息的含量无遗漏或损失的指标—方差,等于X=(X1,X2,…,Xk)’的方差 。 X与Y之间的计算关系是: 如何求解主成分? ;一、从协方差矩阵出发求解主成分 (一)第一主成分: 设X的协方差阵为 由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得 ;其中?1 , ?2 , …,?p为ΣX的特征根,不妨假设?1? ?2 ? … ??p 。而U恰好是由特征根相对应的特征向量所组成的正交阵。 下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差。;证明:设有P维正交向量; 当且仅当a1 =u1时,即 时,有最大的方差?1。因为Var(F1)=U’1?xU1=?1。 如果第一主成分的信息不够,则需要寻找第二主成分。 ;(二) 第二主成分 在约束条件 下,寻找第二主成分 因为 所以 则,对p维向量 ,有 ;所以如果取线性变换: 则 的方差次大。 类推;写为矩阵形式:;例1:设        的协方差矩阵为: 从协方差矩阵出发,求解主成分. (1)求协方差矩阵的特征根 依据      求解.;(2)求特征根对应的特征向量;(3)主成分: (4)各主成分的贡献率及累计贡献率: 第一主成分贡献率: 第二主成分贡献率: 第三主成分贡献率:;第一和第二主成分的累计贡献率: 由此可将以前三元的问题降维为两维问题.第一和 第二主成分包含了以前变量的绝大部分信息97.875%. ;从协方差矩阵出发求解主成分的步骤: 1、求解各观测变量 的协方差矩阵。 2、由X的协方差阵Σ,求出其特征根,即解方程 ,可得特征根 。 3、求解 可得各特征根对应的特征向量U1, U2,…,Up 。 其中最大特征根的特征向量对应第一主成分的系数向 量;第二大特征根对应的特征向量是第二大主成分的系 数向量·····;4、计算累积贡献率,给出恰当的主成分个数。 5、计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各样本k个主成分的得分。 6、对结果进行正确分析和合理解释. ;二、由相关矩阵求解主成分 当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档