张富昌主成分材料.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
四、应用举例 3、主成分分析提取表、主成分载荷表的生成 累计贡献率大于85%时,就认为能足够反映原来变量的信息(部分文献认为要求特征值大于1)。通过表4( 方差分解主成分提取分析) 可知, 提取2个主成分, 从表5( 初始因子载荷矩阵) 可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 人均GDP 和农业增加值指标在第二主成分上有较高载荷, 说明第二主成分基本反映了人均GDP 和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息, 所以决定用两个新变量来代替原来的十个变量 四、应用举例 4、主成分得分 Thanks! * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * * by Li Ping * by Li Ping Principal component analysis PCA分析 汇报人:张富昌 指导教师:田中民教授 内容提要 一、PCA数学模型的建立 二、PCA模型的求解 三、PCA的计算步骤 四、应用举例 一、 PCA数学模型的建立 PCA是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。 一、 PCA数学模型的建立 1、一个简单的模型 这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿轴拉开一定的距离然后释放。对于一个具有先验知识的实验者来说,这个实验是非常容易的。球的运动只是在x轴向上发生,只需要记录下轴向上的运动序列并加以分析即可 一、 PCA数学模型的建立 1、一个简单的模型 一般来说,要弄清楚它的运动序列必须记录下球的三维位置。这一点可以通过在不同角度放置三个摄像机实现(如图所示),假设以200Hz的频率拍摄画面,就可以得到球在空间中的运动序列。但是,由于实验的限制,这三台摄像机的角度可能比较任意,并不是正交的。 一、 PCA数学模型的建立 1、一个简单的模型 事实上,在真实世界中也并没有所谓的{x、y、z}轴,每个摄像机记录下的都是一幅二维的图像,有其自己的空间坐标系,球的空间位置是由一组二维坐标记录的:[(XA,YA),(XB,YB),(XC,YC)]。 一、 PCA数学模型的建立 1、一个简单的模型 经过实验,系统产生了几分钟内球的位置序列。怎样从这些数据中得到球是沿着某个轴运动的规律呢?怎样将实验数据中的冗余变量剔除,化归到这个潜在的x轴上呢? 这是一个真实的实验场景,数据的噪音是必须面对的因素。在这个实验中噪音可能来自空气、摩擦、摄像机的误差以及非理想化的弹簧等等。噪音使数据变得混乱,掩盖了变量间的真实关系。如何去除噪音是实验者每天所要面对的巨大考验。 一、 PCA数学模型的建立 2、线性代数、基变换 从线形代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数据空间。而新的基要能尽量揭示原有的数据间的关系。在这个例子中,沿着某轴上的运动是最重要的。这个维度即最重要的“主元”。PCA的目标就是找到这样的“主元”,最大程度的去除冗余和噪音的干扰。 一、 PCA数学模型的建立 2、线性代数、基变换 为了引入推导,需要将上面的数据进行明确的定义。在上面描述的实验过程中,在每一个采样时间点上,每个摄像机记录了一组二维坐标,综合三台摄像机数据,在每一个时间点上得到的位置数据对应于一 个六维列向量。 如果以200Hz的频率拍摄10分钟,将得到10×60×200个这样的向量数据。抽象一点来说,每一个采样点数据 都是在m维向量空间(此例中m=6)内的一个向量,这里的m是牵涉的变量个数。 一、 PCA数学模型的建立 2、线性代数、基变换 从更严格的数学定义上来说,PCA回答的问题是:如何寻找到另一组正交基,它们是原采集数据的线性组合,而且能够最好的表示数据集? 令X表示原数据集。X是一个m×n的矩阵,它的每一个列向量都表示一

文档评论(0)

花仙子 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档