主成分分析修订演示文稿.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算综合得分 以前两个主成分的方差贡献率为权数,对这两 个主成分得分进行加权,算出一个综合得分即 例2 食品业的经营决策 Word文档 所以如果取线性变换: 则 的方差次大。 类推 写为矩阵形式: §4 主成分的性质 一、均值 二、方差为所有特征根之和 说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。 协方差矩阵?的对角线上的元素之和等于特征根之和。 三、精度分析 1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率 ,反映了原来P个指标多大的信息,有多大的综合能力 。 2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重 来描述,称为累积贡献率。 我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,…,Fk(k≤p)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量85%以上的信息量为依据,即当累积贡献率≥85%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。 四、原始变量与主成分之间的相关系数 可见, 和 的相关的密切程度取决于对应线性组合系数的大小。 五、原始变量被主成分的提取率 前面我们讨论了主成分的贡献率和累计贡献率,他度量了F1,F2,……,Fm分别从原始变量X1,X2,……XP中提取了多少信息。那么X1,X2,……XP各有多少信息分别F1,F2,……,Fm被提取了。应该用什么指标来度量?我们考虑到当讨论F1分别与X1,X2,……XP的关系时,可以讨论F1分别与X1,X2,……XP的相关系数,但是由于相关系数有正有负,所以只有考虑相关系数的平方。 如果我们仅仅提出了m个主成分,则第i 原始变量信息的被提取率为: 是Fj 能说明的第i 原始变量的方差 是Fj 提取的第i 原始变量信息的比重 例 设 的协方差矩阵为 解得特征根为 , , ,, 第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。 Xi与F1的 相关系数 平方 Xi与F2的相关系数 平方 信息提取率 xi 1 0.925 0.855 0 0 0.855 2 -0.998 0.996 0 0 0.996 3 0 0 1 1 1 定义:如果一个主成分仅仅对某一个原始变量有作用,则称为特殊成分。如果一个主成分所有的原始变量都起作用称为公共成分。 (该题无公共因子) 六、载荷矩阵 §5 标准化变量主成分 在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时,总体方差则主要受方差较大的变量的控制。 若用∑求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令 , 这时, 的协方差矩阵便是 的相关系数阵 , 其中 利用X的相关矩阵ρ作主成分分析,平 行于前面∑的结论,可以有如下的定理: 定理: 设 为标准化的随机向量,其 协方差矩阵(即X的相关矩阵)为ρ ,则X*的 第i个主成分 并且 其中 为相关矩阵ρ的特征值, 为相应的正交单位化特征向量。 这时 第i个主成分的贡献为 前m个主成分的累积贡献为 例题:对比标准化和非标准化数据的主成分 设 协方差矩阵和对应的相关 矩阵分别为 如果从∑出发作主成分分析,易求得其 特征值和相应的单位正交化特征向量为 则X的两个主成分分别为: 第一主成分的贡献率为: 由于X2的方差很大,完全控制了提取信息量占99.2%的第一主成分(X2在F1中的系数为0.999),淹没了变量X1的作用。 如果从ρ出发作主成分分析,可求得其 特征值和相应的单位正交化特征向量为 则X*的两个主成分分别为: 此时,第一主成分的贡献率有所下降,为: 由此看到,原变量在第一主成分中的相对重要性由于标准化而有很大的变化。 在由∑所求得的第一主成分中,X1和X2和的权重系数分别为0.040和0.999,主要由大方差的变量控制。 而在由ρ所求得的第一主成分中, X1和X2和的权重系数反而成了0.707和0

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档