- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PCA(
PCA(主分量分析法)
协方差矩阵——PCA 的关键。
PCA 的目的就是“降噪”和“去冗余”。“降噪”的目的就是使保留下来的维度间的相关性尽可能小,而“去冗余”的目的就是使保留下来的维度含有的 “能量”即方差尽可能大。那首先的首先,我们得需要知道各维度间的相关性以 及个维度上的方差!那有什么数据结构能同时表现不同维度间的相关性以及各个 维度上的方差呢?自然是非协方差矩阵莫属。回忆下《浅谈协方差矩阵》的内容, 协方差矩阵度量的是维度与维度之间的关系,而非样本与样本之间。协方差矩阵 的主对角线上的元素是各个维度上的方差(即能量),其他元素是两两维度间的协 方差(即相关性)。我们要的东西协方差矩阵都有了,先来看“降噪”,让保留下 的不同维度间的相关性尽可能小,也就是说让协方差矩阵中非对角线元素都基本 为零。达到这个目的的方式自然不用说,线代中讲的很明确——矩阵对角化。而 对角化后得到的矩阵,其对角线上是协方差矩阵的特征值,它还有两个身份:首 先,它还是各个维度上的新方差;其次,它是各个维度本身应该拥有的能量(能量
的概念伴随特征值而来)。这也就是我们为何在前面称“方差”为“能量”的原因。
也许第二点可能存在疑问,但我们应该注意到这个事实,通过对角化后,剩余维 度间的相关性已经减到最弱,已经不会再受“噪声”的影响了,故此时拥有的能 量应该比先前大了。看完了“降噪”,我们的“去冗余”还没完呢。对角化后的 协方差矩阵,对角线上较小的新方差对应的就是那些该去掉的维度。所以我们只 取那些含有较大能量(特征值)的维度,其余的就舍掉即可。PCA 的本质其实就是对角化协方差矩阵.
PCA 的本质是对角化协方差矩阵,目的是让维度之间的相关性最小
(降噪),保留下来的维度的能量最大(去冗余)。
PCA 简介以及模型
Web 的发展产生了大量的数据,尤其是现在的互联网公司,集结了大量的用户信息。, 怎样从这些复杂混乱的数据中提取有用的信息才是重点。我们举一个物理模型
如图所示:
当把一个弹簧球沿着X 方向进行拉伸的时候,弹簧球会在X 方向上进行来往复运动。假设我们有三个相机,用来描述弹簧球的运动轨迹,分别为CameraA(x,y,z),CameraB(x,y,z),CameraC(x,y,z),相机的摆放并不呈现正交。
感官上,如果以小球运动的平面作为XOY 平面,我们可以最大限度的描述小球的运动轨迹,毕竟小球只是在X 方向上进行往返运动,可是在相机A,B,C 中却会对同一时刻的小球位置产生三个不同的描述,这是因为三个相机有不同的坐标系,因此,如何从三个相 机中产生的冗余数据进行去除,得到最佳的描述小球运动轨迹的信息,正是PCA 的功劳。
线性代数中对 PCA 这样进行描述:PCA 的目标就是用另一组基去重新描述得到的数据空间,而新的基要尽可能的描述原有数据间的关系,简单总结:一方面要体现出最主要的特征,另一方面要区分开主要特征和次要特征的差距。上面的例子中,沿着X 轴进行运动无疑是最主要的特征,也就是我们所说的“主元”。那么怎样才能最好的表示原数据呢? 无疑是选择最好的基,那怎样的基才是最好的基呢?关于基的概念,线性代数给出这样的描述:
在线性空间V 中,如果存在n 个元素 a1,a2,a3,...,an,满足
(1)a1,a2,a3,...,an 线性无关
(2)V 中的任何元素都可以用 a1,a2,a3,...,an 进行描述
PCA 进行坐标基变换的原则是:
主元轴拥有最大的方差,次元轴拥有次级大的方差......
坐标基的相关性为 0(其实根据基的基本概念,只要是基的话就已经是线性无关的)
去噪声
线性系统中,我们用
线性系统中,我们用”信噪比“来描述噪声的大小,通常,变化大的被认为是噪声,而变化小的被认为是信号,而变化的快慢使用方差来描述的。
当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行(这点在下面的图C 中也有体现)。由于C 中的水平坐标和垂直坐标都是以(x1,x2)作为坐标系的,如果我们以 x1,x2 作为坐标轴,将 F1,F2 投影到 x1,x2 坐标轴上并不能获得描述对象的最大方差,。因此,需要寻找椭圆的长短轴,并进变换,使得新变量和椭圆的
长短轴平行。这个过程叫做去噪声!
2. 去冗余
E
F 2 ..... _ .
.??
...??
.一`、
、一噜 lil ..7/ i .. 咖
????? .,
./
. 嘈 ..
?.?
...?
.... .
. , _ VX
.. ,已 x
. 衄身 I ._ \.
. . 1
多
多
lxI . .
lx
..| ...
.
II . .
.
Fl
您可能关注的文档
- Older people should learn分析和总结最新分析和总结.docx
- OLED-屏幕和-LCD-屏幕区别-OLED-屏幕和-LCD-屏幕相关介绍.docx
- ole超市分析和总结.docx
- one belt one road speech分析和总结最新分析和总结.docx
- ONE DROP分析和总结最新分析和总结.docx
- Ony中压紫外线-AOP高级氧化技术讲解.docx
- OpenMP和MPI之对比分析和总结.docx
- Openvswitch研发白皮书v1.4分析和总结.docx
- oracle 10g RAC linu vmware workstation FREENAS共享存储分析和总结.docx
- Oracle 10g与11g的区别分析和总结.docx
文档评论(0)