- 3
- 0
- 约1.1万字
- 约 18页
- 2018-11-21 发布于江苏
- 举报
PCA主成分研究原理及应用
主元分析(PCA)理论分析及应用
什么是PCA?
?????? PCA是Principal component analysis的缩写,中文翻译为主元分析/主成分分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。
?????? 在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将从一个简单的例子开始说明PCA应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。
一个简单的模型
?????? 在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等等。但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的变量关系,是一个很困难的问题。在神经科学、气象学、海洋学等等学科实验中,假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又是非常之简单的。
?????? 下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表 1所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿 轴拉开一定的距离然后释放。
?
图表 1
?????? 对于一个具有先验知识的实验者来说,这个实验是非常容易的。球的运动只是在x轴向上发生,只需要记录下 轴向上的运动序列并加以分析即可。但是,在真实世界中,对于第一次实验的探索者来说(这也是实验科学中最常遇到的一种情况),是不可能进行这样的假设的。那么,一般来说,必须记录下球的三维位置 。这一点可以通过在不同角度放置三个摄像机实现(如图所示),假设以 的频率拍摄画面,就可以得到球在空间中的运动序列。但是,由于实验的限制,这三台摄像机的角度可能比较任意,并不是正交的。事实上,在真实世界中也并没有所谓的 轴,每个摄像机记录下的都是一幅二维的图像,有其自己的空间坐标系,球的空间位置是由一组二维坐标记录的: 。经过实验,系统产生了几分钟内球的位置序列。怎样从这些数据中得到球是沿着某个 轴运动的规律呢?怎样将实验数据中的冗余变量剔除,化归到这个潜在的 轴上呢?
?????? 这是一个真实的实验场景,数据的噪音是必须面对的因素。在这个实验中噪音可能来自空气、摩擦、摄像机的误差以及非理想化的弹簧等等。噪音使数据变得混乱,掩盖了变量间的真实关系。如何去除噪音是实验者每天所要面对的巨大考验。
?????? 上面提出的两个问题就是PCA方法的目标。PCA主元分析方法是解决此类问题的一个有力的武器。下文将结合以上的例子提出解决方案,逐步叙述PCA方法的思想和求解过程。
线形代数:基变换
?????? 从线形代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数据空间。而新的基要能尽量揭示原有的数据间的关系。在这个例子中,沿着某 轴上的运动是最重要的。这个维度即最重要的“主元”。PCA的目标就是找到这样的“主元”,最大程度的去除冗余和噪音的干扰。
A.??? 标准正交基
为了引入推导,需要将上文的数据进行明确的定义。在上面描述的实验过程中,在每一个采样时间点上,每个摄像机记录了一组二维坐标 ,综合三台摄像机数据,在每一个时间点上得到的位置数据对应于一个六维列向量。
如果以 的频率拍摄10分钟,将得到 个这样的向量数据。
?????? 抽象一点来说,每一个采样点数据 都是在 维向量空间(此例中 )内的一个向量,这里的 是牵涉的变量个数。由线形代数我们知道,在 维向量空间中的每一个向量都是一组正交基的线形组合。最普通的一组正交基是标准正交基,实验采样的结果通常可以看作是在标准正交基下表示的。举例来说,上例中每个摄像机记录的数据坐标为 ,这样的基便是 。那为什么不取 或是其他任意的基呢?原因是,这样的标准正交基反映了数据的采集方式。假设采集数据点是 ,一般并不会记录 (在 基下),因为一般的观测者都是习惯于取摄像机的屏幕坐标,即向上和向右的方向作为观测的基准。也就是说,标准正交基表现了数据观测的一般方式。
?????? 在线形代数中,这组基表示为行列向量线形无关的单位矩阵。
B.??? 基
您可能关注的文档
- MTK平台下sensor框架研究.doc
- MultisimDSB调制与解调电路仿真研究.doc
- MTS生产环境下供应链存货政策之研究.doc
- MOLDFLOW模流研究报告.pptx
- MW机组制粉系统出力及单耗性能考核试验实施方案(A版).doc
- MyHR人力资源管理解决实施方案.doc
- Mysql+Innodb+查询优化实现研究专业版.docx
- mySAP公用事业解决实施方案.doc
- NBC气体保护焊机电路维修培训课件.doc
- NBA历史最强大前邓肯故事.doc
- 宠物行业新品趋势-炼丹炉x淘天集团-202601.docx
- 2025空间智能软件技术大会:GIS+燃气:智慧燃气行业数字化转型.pptx
- 2025年AI治理报告:回归现实主义.docx
- 2025医疗科技领域AI应用:驾驭变革与机遇研究报告 Artificial Intelligence in Medtech Navigating Change and Opportunity.docx
- 2026年50大科技趋势前瞻报告 The Top 50 Technology Trends.docx
- 数字电网无人机巡检解决方案.docx
- 人工智能企业综合能力评价规范(平台化视角)(征求意见稿).docx
- 中国经济复盘与展望:“反内卷”与结构突围.docx
- 爷爷不泡茶茶饮品牌小红书平台推广方案.pptx
- 2026年美中AI市场竞争态势与DeepSeek的突围(中文).docx
最近下载
- 2025年度民主生活会“带头强化政治忠诚提高政治能力方面”五个带头常见存在问题清单.docx VIP
- 糖尿病合并感染..ppt VIP
- 2025年全国高考体育单招考试政治试卷真题及答案解析.docx VIP
- 浅谈赵师侠词的思想内容.doc VIP
- 【水利】2021年一级建造师考试逆袭卷(一).docx VIP
- 中建《项目商务策划管理办法》.docx VIP
- 实施指南(2026)《NBT 25044.6-2016 核电厂常规岛及辅助配套设施建设施工质量验收规程 第 6 部分:管道》解读.pptx VIP
- CAN总线通信需求规范.docx VIP
- DB65T4185-2019 公路雪害防治技术规范.pdf VIP
- 公路养护及占道施工作业安全检查表、人员、车辆、机具设备管理用表、进、出场登记表、安全设施图表.pdf VIP
原创力文档

文档评论(0)