主元分析(PCA)理论分析及应用.PDF

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主元分析(PCA)理论分析及应用

主元分析(PCA)理论分析及应用 什么是PCA? PCA 是Principal component analysis 的缩写,中文翻译为主元分析。它是一种对数据进行分析的技术, 最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主 要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它 的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机 图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。 在以下的章节中,不仅有对PCA 的比较直观的解释,同时也配有较为深入的分析。首先将从一个简单 的例子开始说明PCA 应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推导, 引入线形代数,进行问题的求解。随后将揭示PCA 与SVD(Singular Value Decomposition)之间的联系以及 如何将之应用于真实世界。最后将分析PCA 理论模型的假设条件以及针对这些条件可能进行的改进。 一个简单的模型 在实验科学中常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等等。 但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、混乱和冗余的。如何对数据进行分 析,取得隐藏在数据背后的变量关系,是一个很困难的问题。在神经科学、气象学、海洋学等等学科实验 中,假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又是非常之简单的。 下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表1所示。这是一个 理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿x 轴拉开一 定的距离然后释放。 图表 1 对于一个具有先验知识的实验者来说,这个实验是非常容易的。球的运动只是在x 轴向上发生,只需 要记录下x 轴向上的运动序列并加以分析即可。但是,在真实世界中,对于第一次实验的探索者来说(这 也是实验科学中最常遇到的一种情况),是不可能进行这样的假设的。那么,一般来说,必须记录下球的三 维位置(x0 ,y 0 , z 0 ) 。这一点可以通过在不同角度放置三个摄像机实现(如图所示),假设以200Hz 的频率 拍摄画面,就可以得到球在空间中的运动序列。但是,由于实验的限制,这三台摄像机的角度可能比较任 意,并不是正交的。事实上,在真实世界中也并没有所谓的{x ,y , z }轴,每个摄像机记录下的都是一幅二 维的图像,有其自己的空间坐标系,球的空间位置是由一组二维坐标记录的: x y x y x y 。 [( A , A ), ( B , B ), ( C , C )] 经过实验,系统产生了几分钟内球的位置序列。怎样从这些数据中得到球是沿着某个轴运动的规律呢?怎 样将实验数据中的冗余变量剔除,化归到这个潜在的轴上呢? 这是一个真实的实验场景,数据的噪音是必须面对的因素。在这个实验中噪音可能来自空气、摩擦、 摄像机的误差以及非理想化的弹簧等等。噪音使数据变得混乱,掩盖了变量间的真实关系。如何去除噪音 是实验者每天所要面对的巨大考验。 上面提出的两个问题就是 PCA 方法的目标。PCA 主元分析方法是解决此类问题的一个有力的武器。 下文将结合以上的例子提出解决方案,逐步叙述PCA 方法的思想和求解过程。 线形代数:基变换 从线形代数的角度来看,PCA 的目标就是使用另一组基去重新描述得到的数据空间。而新的基要能尽 量揭示原有的数据间的关系。在这个例子中,沿着某 轴上的运动是最重要的。这个维度即最重要的 “主 x 元 ” 。 PCA 的 目 标 就 是 找 到 这 样 的 “ 主 元 ” , 最 大 程 度 的 去 除 冗 余 和噪音的干扰。 A. 标准正交基 为了引入推导,需要将上文的数据进行明确的定义。在上面描述的实验过程中,在每一个采样时间点 上,每个摄像机记录了一组二维坐标(xA ,y A ) ,综合三台摄像机数据,在每一个时间点上得到的位置数据 对应于一个六维列向量。

文档评论(0)

ldj215323 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档