- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 第二章 主分量分析Principal Components Analysis §2.1 主分量分析的原理 1. 概 述 多元问题的复杂性∶指标(变量)多,指标间存在相关性。 问题∶能否构造出一些综合指标使满足如下条件∶ ① 指标个数尽可能少, ② 指标间相互独立, ③ 尽可能多地包含原指标所含的关于总体的信息。 例如∶做一件上衣要测量的指标有∶身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指标综合为3项指标(分别反应长度、胖瘦、特体),用作分类的型号。 又如商业经济∶ 多项指标--物价、生活费用、商业活动指数。 主分量(主成分)分析是将原来众多具有相关性的指标化为少数几个相互独立的综合指标的一种统计方法。 2. 直 观 想 法 原始数据矩阵 P维空间n个点 研究n个点的关系,难。 降维,近似在低维空 间表达。 例如,二元总体, 正态分布。 如果椭圆很扁,则在 的坐标系中,样 本点的第一个坐标 就代表了这些点的 分布情况。 3.主分量问题的数学提法 设p维随机变量 的数学期望为0, 的主分量指的是综合变量 , 它满足如 下条件∶ ① ,其中 是正交矩阵。 即∶ ② 在形如(1)的线性变换中, 具有最大的方差; 与 相互独立,且在与 相互独立的线性变换中 具有最 大的方差; 与 和 相互独立,且在与 和 相互 独立的线性变换中, 具有最大的方差;如此类推。 分别叫做 的第一、第二、 、 (1) 第 主分量。 问题∶ 的主分量是否存在? 即能够使①②成立的正交矩阵 是否存在? 问题解决思路∶假设主分量存在,看一下U应满足什么的条件,能否按照这个条件把U求出来。 设 是 的主分量,它们的方差分别为 由于 相互独立,所以∶ 又因 所以∶ 即 或 。 若记 则有 即 是对应的单位特征向量。 是 的特征值, 说明∶求法, 最大方差性质。 说明1∶求主分量关键是要从协方差矩阵 求出正交变换矩阵 。 说明2∶若已经求出主分量 ,则原来的p个指标 就可以转化为用p个新的指标 (即主分量)来表达。这p个新的指标是相互独立的,这给问 题的分析带来了很大的方便。 说明3∶新的指标 的方差分别为 ,如果某一个 很小,总体分布 在 这个方向上分散程度很小,这个分量所起作用不大, 因而可以忽略不考虑。将这些分量去掉,就可以降低维数, 给分析问题带来更大的方便。 4.样本主分量 实际问题中总体协方差 是未知的,只能用样本协方 差 去估计。因此实用中,从样本协方差 出发,求 一个正交矩阵 ,将 变成对角矩阵 ,即 样本主分量--由 出发求出的主分量。 样本点 的主分量坐标为 注∶样本数据要求是中心化的数据。 5.贡献率 是样本点在第 个主分量方向上的方差,它代表样本点 在这个主分量方向上的分散程度。若 很小,这个主分量可 忽略不记。 问题∶ 小到什么程度才算小呢? 第 个主分量的贡献率∶ 主分量舍弃原则∶前 m 个主分量的累计贡献率 接 近于1(80%或85%),则可将余下的p-m个主分量舍去。 贡献率的计算∶ 6.小结 可设计m个互不相关的综合指标, 总方差 7. 因子负荷量 因子负荷量∶称
文档评论(0)