主成分分析(PCA)数学原理详解.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析 (PCA)数学原理详解 ⽂章 ⽬录 由于中的公式符号⽆法显⽰,因此 ⽂重新整理了⼀下⽂章内容,⽅便学习。 PCA (Principal Component Analysis)是⼀种常⽤的数据分析⽅法。PCA通过线性变换将原始数据变换为⼀组各维度线性⽆关的表⽰, 可⽤于提取数据的主要特征分量,常⽤于⾼维数据的降维。⽹上关于PCA的⽂章有很多,但是⼤多数只描述了PCA的分析过程,⽽没有讲 述其中的原理。这篇⽂章的⽬的是介绍PCA的基 数学原理,帮助读者了解PCA的⼯作机制是什么。 当然我并不打算把⽂章写成纯数学⽂章,⽽是希望⽤直观和易懂的⽅式叙述PCA的数学原理,所以整个⽂章不会引⼊严格的数学推导。希望 读者在看完这篇⽂章后能更好的明⽩PCA的⼯作原理。 1 数据的向量表⽰及降维问题 ⼀般情况下,在数据挖掘和机器学习中,数据被表⽰为向量。例如某个淘宝店20 12年全年的流量及交易情况可以看成⼀组记录的集合,其 中每⼀天的数据是⼀条记录,格式如下 : (⽇期, 浏览量, 访客数, 下单数, 成交数, 成交⾦额) 其中 “⽇期”是⼀个记录标志⽽⾮度量值,⽽数据挖掘关⼼的⼤多是度量值,因此如果我们忽略⽇期这个字段后,我们得到⼀组记录,每条 记录可以被表⽰为⼀个五维向量,其中⼀条看起来⼤约是这个样⼦ : (500, 240, 25, 13, 2312.15)T 注意这⾥我⽤了转置,因为习惯上使⽤列向量表⽰⼀条记录 (后⾯会看到原因), ⽂后⾯也会遵循这个准则。不过为了⽅便有时我会省略 转置符号,但我们说到向量默认都是指列向量。 我们当然可以对这⼀组五维向量进⾏分析和挖掘,不过我们知道,很多机器学习算法的复杂度和数据的维数有着密切关系,甚⾄与维数呈指 数级关联。当然,这⾥区区五维的数据,也许还⽆所谓,但是实际机器学习中处理成千上万甚⾄⼏⼗万维的情况也并不罕见,在这种情况 下,机器学习的资源消耗是不可接受的,因此我们必须对数据进⾏降维。 降维当然意味着信息的丢失,不过鉴于实际数据 ⾝常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低。 举个例⼦,假如某学籍数据有两列M和F,其中M列的取值是如何此学⽣为男性取值 1,为⼥性取值0 ;⽽F列是学⽣为⼥性取值 1,男性取值 0。此时如果我们统计全部学籍数据,会发现对于任何⼀条记录来说,当M为 1时F必定为0,反之当M为0时F必定为 1。在这种情况下,我 们将M或F去掉实际上没有任何信息的损失,因为只要保留⼀列就可以完全还原另⼀列。 当然上⾯是⼀个极端的情况,在现实中也许不会出现,不过类似的情况还是很常见的。例如上⾯淘宝店铺的数据,从经验我们可以知 道, “浏览量”和 “访客数”往往具有较强的相关关系,⽽ “下单数”和 “成交数”也具有较强的相关关系。这⾥我们⾮正式的使⽤ “相关 关系”这个词,可以直观理解为 “当某⼀天这个店铺的浏览量较⾼ (或较低)时,我们应该很⼤程度上认为这天的访客数也较⾼ (或较 低)”。后⾯的章节中我们会给出相关性的严格数学定义。 这种情况表明,如果我们删除浏览量或访客数其中⼀个指标,我们应该期待并不会丢失太多信息。因此我们可以删除⼀个,以降低机器学习 算法的复杂度。 上⾯给出的是降维的朴素思想描述,可以有助于直观理解降维的动机和可⾏性,但并不具有操作指导意义。例如,我们到底删除哪⼀列损失 的信息才最⼩?亦或根 不是单纯删除⼏列,⽽是通过某些变换将原始数据变为更少的列但⼜使得丢失的信息最⼩?到底如何度量丢失信息 的多少?如何根据原始数据决定具体的降维操作步骤? 要回答上⾯的问题,就要对降维问题进⾏数学化和形式化的讨论。⽽PCA是⼀种具有严格数学基础并且已被⼴泛采⽤的降维⽅法。下⾯我不 会直接描述PCA,⽽是通过逐步分析问题,让我们⼀起重新 “发明”⼀遍PCA。 2 向量的表⽰及基变换 既然我们⾯对的数据被抽象为⼀组向量,那么下⾯有必要研究⼀些向量的数学性质。⽽这些数学性质将成为后续导出PCA的理论基础。 2.1 内积与投影 下⾯先来看⼀个⾼中就学过的向量运算 :内积。两个维数相同的向量的内积被定义为 : (a , a , ⋯ , a )T ⋅ (b , b , ⋯ , b )T = a b + a b + ⋯ + a b 1 2 n 1 2

文档评论(0)

131****8213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档