“深入浅出数学建模”之主成分分析.pdfVIP

“深入浅出数学建模”之主成分分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

“深⼊浅出数学建模”之主成分分析

主成分分析(PCA)

好多⼩伙伴在学习数学建模的时候会遇到这么⼀个算法—主成分分析,顾名思义,是⽤来分析主要成分的。简单点说,就是对评价指标集进

⾏分析,得到新的若⼲个成分,来代替原始的评价指标(听不懂没关系!继续往下看,保证可以听得懂!)。

它是⼀种普遍的降维算法,在机器学习、⽣物分析等各个领域都有着⼴泛的应⽤。接下来,跟着我的思路,带你掌握这个算法,并学会如何

去应⽤!

1例题引⼊

⼤家设想⼀下这个例⼦,为了衡量⼀个⼈的体育综合能⼒,我们设有如下评价指标集{BMI(⾝⾼体重),肺活量,400⽶跑成绩,800⽶

跑成绩,跳⾼,跳远}。接着我们分析问题的时候,觉得这些指标太多了(似乎并不多,但是假设你觉得多),对我们分析问题⽐较⿇烦,

这个时候我需要对指标进⾏处理,这个时候我就进⾏主成分分析。很多同学对这有个误解,认为主成分分析出来的是从原来指标集中直接挑

出来的,绝对不是这样!⼤家请看下图:

在这个图中,左边是我们刚刚设定的变量,这⾥我⽤1-6来表⽰,右边是我们求出来的主成分(PC),为什么会有6个主成分呢?实际上我

们⽤matlab软件求出来的就是多少个指标对应着多少个主成分。有⼈会问,不是说好的降维吗,为啥还是六个主成分呢?别急,我们先保

留这个问题。

⼤家还需要注意的⼀点就是,每⼀个主成分和原来的指标都是存在⼀个线性关系的,我这⾥图中只画出来PC1,其他的PC也是这样的,也

就说,我们可以把PC1⽤下⾯公式表⽰:

PC=aX+bX+...+fX

1126

什么意思呢?也就是说,每⼀个主成分都和原来的变量有关系,并不是说主成分就是从原来变量中直接挑出来的,但是他是有⼀定意义的。

⽐如说,假设这个主成分PC1在X2,X3,X4(对应着肺活量,400⽶跑,800⽶跑)前⾯的系数⽐较⼤且为正值,那我们可以分析得到这个主

成分主要侧重于⼈的耐⼒⽅⾯(肺活量,400⽶,800⽶这三个指标本⾝就体现了⼀个⼈的耐⼒);同理如果某个主成分PC2,在X5,X6,

对着的前⾯系数⽐较⼤,说明我们分析得到的这个主成分是衡量⼈的爆发⼒⽅⾯。但是注意,并不是每⼀个主成分都可以分析出它们的意

义。

我们可以看到前⾯两个主成分是彼此独⽴的,衡量⼈体育成绩不同⽅⾯的,这也是符合我们寻找主成分的定义的。接下来我们看⼀下,主成

分分析的具体原理⼜是怎么实现的呢?

2基本思想

在展开PCA数学原理之前,我们先整体把握⼀下其思想:

PCA算法是⼀种降维算法,降维就不可避免的涉及到数据的损失,就好⽐在三维世界中你看到的⼀个球,在⼆维世界中你只能看到⼀个⾯。

怎么让我们的数据经过降维之后,尽可能的保留原始信息,这是我们需要解决的。

我们期望找到主成分彼此之间尽可能的独⽴,就⽐如前⾯例题中找到的主成分,分别来侧重说明某⼀⽅⾯,相互独⽴。如果不是相互独⽴,

说明我们找的主成分不具有代表性,是不符合要求的。

总结⼀下:

降维后数据尽可能损失⼩

得到主成分之间尽可能独⽴

以上就是我们PCA算法的基本思想,想深⼊继续理解的同学可以继续往下看,不想深⼊了解的,直接想调⽤代码的可以直接略过下⼩节。

3数学原理

在这⾥,我们不多赘述复杂的过程与推导,我们只关⼼理解算法,了解算法,知道算法是怎么来的,怎么解决的,有⼤体的了解就ok了。

我们⾸先有数据集如下图所⽰:

这⾥每⼀⾏代表⼀个特征(N),每⼀列代表⼀个样本(M),同时我们选择N个R维的正交基,如下图所⽰:

接下来我们会有:

⼤家对这⼀步不必过于纠结,这⼀步就是进⾏⼀个线性的变化,进⾏降维的过程,可以看到经过⼀个矩阵P进⾏处理后,我们得到的矩阵

X’的维度发⽣了变化,每⼀⾏仍然代表是特征,但是此时的特征数变成R(RN),样本的数⽬没有变,达到了我们降维的⽬的。同时对于

变化后的每⼀个变量,有:

j1j2j...+px

px=px+px+iNNN

ii1i2

是线性的关系,也就是为什么我们说PCA是⼀种线性降维。当然我们也有⾮线性降维,后续我们还会继续讨论这个问题。

我们回头再看我们的问题,我们可以找任何⼀个P矩阵对我们

文档评论(0)

150****6105 + 关注
实名认证
文档贡献者

硕士毕业生

1亿VIP精品文档

相关文档