第8章主成分分析课件.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 8 章 主成分分析 § 8.1 主成分分析的基本思想 在实际生活中, 我们经常会遇到需要对多个变量进行统计推断的统计分析问题。 在这些 问题中,变量个数可能多达十几个、几十个、甚至上百个。比如,作一次健康体检,可以测 得人体的十几项、几十项生理指标。 环境检测取一份水样,可以测得水中十几种、 几十种成 分的含量。 评定一个毕业生的学习好坏, 可以考虑他学过的十几门、几十门学科的成绩。考 察一个上市公司的业绩, 可以从股市年报中读到几十种、 上百种与业绩有关的数据。 变量个 数多了, 就不容易看清变量之间的相互关系, 不容易从中得出有用的结论, 会给统计分析带 来很大的困难。 但是, 日常生活也给了我们一些启发:如果我们要去定做一套服装,从理论上说, 需要 测量身长、袖长、裤长、胸围、腰围、臀围、领口、袖口、裤口等十几种、几十种尺寸。可 是实际上, 我们并不需要这么多尺寸, 只需要报出几个主要的尺码就可以了。 因为这些尺寸 之间往往是有一定比例关系的, 所以,几个主要的尺码, 就大致上综合了原来十几种、 几十 种尺寸中所包含的信息。 由此我们产生了一种想法,也就是 主成分分析 (Principal Component Analysis )的 基本思想: 能否对原来多个变量进行适当的组合, 组合成一些综合指标, 用较少的综合指标 来近似代替原来的多个变量。 这种由原来多个变量组合而成的综合指标, 就称为 主成分 (也 称主分量 ,Principal Component )。 主成分选取的原则是: (1)主成分是原变量的线性组合。 (2)各个主成分之间互不相关。 (3)如果原来有 m个变量,则最多可以取到 m 个主成分,这 m 个主成分的变化,可以完 全反映原来全部 m个变量的变化;如果选取的主成分少于 m 个,那么,这些较少的主成分 的变化,应该尽可能多地反映原来全部 m 个变量的变化。 191 § 8.2 主成分分析的计算过程和计算结果 设对 m 个变量 1, 2, , 进行 n次观测,得到观测数据矩阵: m x 11 x 12 x 1m X x i j n m x 21 x 22 x 2m x n1 x n2 x nm 设 x x ~ (i 1, 2, , n , j 1, 2, , m )是中心化标准化的观测数据, i j j x i s j j 其中 x n 1 j x i n i 1 j 是变量 j 的样本均值, s n 1 j ( x x i jj ( x x n i 1 j ) 2 是变量 j 的样本 标准差。 变换后的 ~ (i 1, 2, , n , j 1, 2, , m )组成的矩阵 x i j ~ X ~ x i j n m ~ x 11 ~ x 21 ~ x 12 ~ x 22 ~ x 1m ~ x 2m ~ x n1 ~ x n2 ~ x nm 是中心化标准化的观测数据矩阵。 1 ~ T ~ 按公式 R X X n 求出的矩阵就是 样本相关阵 (Sample Correlation Matrix ) 。 矩阵 R r 中的元素 i j m m n ( x k i x i )( x k j x j ) r i j n k 1 2 ) n ( x k j x j ) 2 ( x k i x i k 1 k 1 满足 1 r 1。 i j 当 r 1时,表示变量 i 与变量 j 正线性相关; i j 当 ri j 0 时,表示变量 i 与变量 j 不相关; 当 r 1时,表示变量 i 与变量 j 负线性相关。 i j 如果对数据只进行中心化,不进行标准化,即 192 ~ x i j xi x ,i 1, 2, , n , j 1, 2, , m 。 j j 1 ~T ~ 这时,按公式 X X S n 求出的矩阵就是 样本协方差阵 (Sample Covariance Matrix )。 1 对样本相关阵 R 作特征分解 , 得到 T R U U , 其中, 是由 R 的 m u 11 u 1m 特征值 0 1 m 组成的对角阵, 2 U 是由 R 的标准正交化 u m1 u mm 的特征向量按列并排组成的正交阵。 U 称为 主成分载荷阵 (Principal Component Loading Matrix ),它是用 主成 分 ~ ~ ~ , 2 , , , , , 1 表示(中心化标准化的)原变量 1 m 时的系数矩阵,即有 m 2 ~ 1 u 11 1 u 1m m ~ m u m1 1 u mm m , ~ 1 1 用矩阵形式表示,就是 ~ m U m 。 1 ~ 1 由于 U 是正交阵,满足 1 U T U ,所以又有 U T ~ ,即有 m m 1 u 11 ~ 1 u m1 ~ m 。 m

文档评论(0)

liuxiaoyu99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档