主成分分析PCA分析和总结.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
.. . . 主成分分析法(PCA) 在实际问题中.我们经常会遇到研究多个变量的问题.而且在多数情况下.多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性.势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量.既能够代表原始变量的绝大多数信息.又互不相关.并且在新的综合变量基础上.可以进一步的统计分析.这时就需要进行主成分分析。 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法.找出几个综合变量来代替原来众多的变量.使这些综合变量能尽可能地代表原来变量的信息量.而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量.重新组合为一组新的相互无关的综合变量来代替原来变量。通常.数学上的处理方法就是将原来的变量做线性组合.作为新的综合变量.但是这种组合如果不加以限制.则可以有很多.应该如何选择呢?如 果将选取的第一个线性组合即第一个综合变量记为 F 1 .自然希望它尽可能多地反映原来变 量的信息.这里“信息”用方差来测量.即希望Var(F 1 ) 越大.表示 F 1 包含的信息越多。因此 在所有的线性组合中所选取的F 1 应该是方差最大的.故称 F 1 为第一主成分。如果第一主成分 不足以代表原来 p 个变量的信息.再考虑选取 F 2 即第二个线性组合.为了有效地反映原来 信息. F 1 已有的信息就不需要再出现在 F 2 中.用数学语言表达就是要求 Cov(F , F 1 2 ) ? 0 . 称 F 为第二主成分.依此类推可以构造出第三、四……第 p 个主成分。 2 (二)主成分分析的数学模型 对于一个样本资料.观测 p 个变量 x , x 1 2  ,? x p  . n 个样品的数据资料阵为: ? x x ? x ? ? 11 12 1 p ? X ? 21 22 2 p ? ? ?x , x ? x x ? x ,? x ? ? ? ? x? x ? n1 ? ? ? ? 1 2 p ? ?x ? x ? ? n 2 np ? x ? 其中: x ? 1 j ? ?? x ? ? ? 2 j ?,  j ? 1,2,? p j? ? ? j x? ? x ? nj ? 主成分分析就是将 p个观测变量综合成为 p 个新的变量(综合变量).即 ? F ? a x ? a x ??? a x ? 1 11 1 12 2 ? 1 p p ?? F ? a x ? a x ? ? a x ? 2 21 1 22 2 2 p p ?? ? ? 简写为: ?F p ? a x p1 1 a x p 2 2 ??? a x pp p F ? ? j x j1 1 ? x j 2 2 ? ? ? ? x jp p j ? 1,2,?, p 要求模型满足以下条件: ① F , F i j 互不相关( i ? j . i, j ? 1,2,?, p ) ② F1 的方差大于 F 2 的方差大于 F3的方差.依次类推 ③ a 2 k1 a 2 k 2 ? ?? a 2 ? 1 kp k ? 1,2,? p . 于是.称 F 为第一主成分. F 为第二主成分.依此类推.有第 p 个主成分。主成分又叫主 1 2 分量。这里a ij 我们称为主成分系数。 上述模型可用矩阵表示为: F ? AX .其中 ? F ? ? x ? ????? 1 ? ? 1 ? ? ? ? ? F x F ? X ? ? 2 ? ? 2 ? ? ? ? ? ? ? F ? x F ? x ? ? p ? ? p ? ? a a ? a ? ? a ? ? 11 12 1 p ? ? 1 ? ? a a ? a ? ? a ? A ? ? 21 22 2 p ? ? ? 2 ? ? ? ? ? ? ? aa? a a ? p1 a ? a p 2 ? ? ? pp ? ? p ? A 称为主成分系数矩阵。 (三)主成分分析的几何解释 假设有n 个样品.每个样品有二个变量.即在二维空间中讨论主成分的几何意义。设n 个样品在二维空间中的分布大致为一个椭园.如下图所示: 图 1 主成分几何解释图 将坐标系进行正交旋转一个角度? .使其椭圆长轴方向取坐标 y .在椭圆短轴方向取坐 1 标 y .旋转公式为 2 ? y ? x cos? ? x sin? ? 1 j j 2 j ?sin ) ? ? cos? ? y ? x (??x 2 j 1 j 2 j j ? 1,2?n ? y y ? y ?

文档评论(0)

mph + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体上海谭台科技有限公司
IP属地湖北
统一社会信用代码/组织机构代码
91310115MA7CY11Y3K

1亿VIP精品文档

相关文档