第六章主成分综述.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Principal Components Analysis 主成分分析 在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来的指标重新组合成一族新的互相无关的、较少的综合指标,尽可能多地反映原来指标的信息。这种将多个指标转化为少数相互无关的综合指标的统计方法叫主成分分析。 1、主成分分析的基本思想 多元问题的复杂性:指标(变量)多,指标间存在相关性。 问题∶能否构造出一些综合指标使满足如下条件∶ ① 指标个数尽可能少, ② 指标间相互独立, ③ 尽可能多地包含原指标所含的关于总体的信息。 例如∶做一件上衣要测量的指标有∶身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指标综合为3项指标(分别反应长度、胖瘦、特体),用作分类的型号。 因此,主分量(主成分)分析是将原来众多具有相关性的指标化为少数几个相互独立的综合指标的一种统计方法。 2、主成分数学模型及几何解释 (1)这p 个指标之间有较强的相关性(只有相关性较强才有必要从原始变量中提取出“公共主成分”)。 (2)为了消除由于观测量纲的差异及数量级的影响,将样本进行标准化,使标准化后的变量均值为0,方差为1。 2.1 主成分模型 设有n个样品,每个样品观测p 个指标: 其中要求 对这p个向量做线性组合 设p维随机变量 的数学期望为0, 的主分量指的是综合变量 它满足如下条件∶ ① ,其中 是正交矩阵。 即∶ ② 在形如(1)的线性变换中, 具有最大的方差; 与 相互独立,且在与 相互独立的线性变换中具有最 大的方差; 如此类推。 分别叫做 x 的第1、第2、…、 (1) 第 主分量。 3 主成分推导及性质 问题∶ 的主分量是否存在? 使①②成立的正交矩阵是否存在? 问题解决思路∶假设主分量存在,看一下U应满足什么的条件,能否按照这个条件把U求出来。 设 是 的主分量,它们的方差分别为 。 由于 相互独立,所以∶ 又因 所以∶ 即 则有 即 是对应的单位特征向量。 是 的特征值, 由于 定理: 设p维随机变量 的数学期望为0,且协方差阵为 ,它的特征值为 为相应的单位特征向量,则x 第 i主成分为 是样本点在其第 i个主成份方向上的方差(分散程度),如果 的值很小,说明样本间在坐标 的方向上分散程度很小,这个主成份在分析样本数据时所起作用不大,可以忽略不计。那么 小到什么程度才认为无足轻重,可以忽略呢?为此引入方差贡献率。 称比值 为第k个主成分 的方差贡献率。 主成份分析的方差贡献率 要说明主成份的方差贡献率— 先要说明特征值 的意义 为前m个主成分 的累计方差贡献率。 由于 ,所以p个主成分的方差贡献率是依次递减的,这样 对应的第一主成分F1起的作用最大,其次是第二主成分F2…。 通常按累计方差贡献率要达到85%。 主成分主要性质 1 、F 的协差阵为对角阵 2、原变量方差之和与各主成分方差之和相等 3、 R 分析 从原始数据阵X出发求主分量的缺点∶结果与测量单位有关。 R分析∶从标准化数据阵 出发求主分量。 用 代替 求正交矩阵 。 第 个主分量的贡献率∶ 因子负荷量的样本估计值∶ §2.2 主分量分析的计算步骤与应用 1. 计算步骤 (R分析) ① 列出观测资料矩阵X, ② 计算样本相关矩阵R, ③ 计算R的特征值和特征向量--求正交变换, ④ 计算贡献率及累计贡献率,确定主分量个数,建立主分量

文档评论(0)

ss55863378 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档