“深入浅出数学建模”之主成分分析.pdfVIP

下载本文档

2
0
约5.25千字
约 5页
2023-12-11 发布于宁夏
举报
版权申诉

“深入浅出数学建模”之主成分分析.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

“深⼊浅出数学建模”之主成分分析

主成分分析（PCA）

好多⼩伙伴在学习数学建模的时候会遇到这么⼀个算法—主成分分析，顾名思义，是⽤来分析主要成分的。简单点说，就是对评价指标集进

⾏分析，得到新的若⼲个成分，来代替原始的评价指标（听不懂没关系！继续往下看，保证可以听得懂！）。

它是⼀种普遍的降维算法，在机器学习、⽣物分析等各个领域都有着⼴泛的应⽤。接下来，跟着我的思路，带你掌握这个算法，并学会如何

去应⽤！

1例题引⼊

⼤家设想⼀下这个例⼦，为了衡量⼀个⼈的体育综合能⼒，我们设有如下评价指标集{BMI（⾝⾼体重），肺活量，400⽶跑成绩，800⽶

跑成绩，跳⾼，跳远}。接着我们分析问题的时候，觉得这些指标太多了（似乎并不多，但是假设你觉得多），对我们分析问题⽐较⿇烦，

这个时候我需要对指标进⾏处理，这个时候我就进⾏主成分分析。很多同学对这有个误解，认为主成分分析出来的是从原来指标集中直接挑

出来的，绝对不是这样！⼤家请看下图：

在这个图中，左边是我们刚刚设定的变量，这⾥我⽤1-6来表⽰，右边是我们求出来的主成分（PC），为什么会有6个主成分呢？实际上我

们⽤matlab软件求出来的就是多少个指标对应着多少个主成分。有⼈会问，不是说好的降维吗，为啥还是六个主成分呢？别急，我们先保

留这个问题。

⼤家还需要注意的⼀点就是，每⼀个主成分和原来的指标都是存在⼀个线性关系的，我这⾥图中只画出来PC1，其他的PC也是这样的，也

就说，我们可以把PC1⽤下⾯公式表⽰：

PC=aX+bX+...+fX

1126

什么意思呢？也就是说，每⼀个主成分都和原来的变量有关系，并不是说主成分就是从原来变量中直接挑出来的，但是他是有⼀定意义的。

⽐如说，假设这个主成分PC1在X2,X3,X4(对应着肺活量，400⽶跑，800⽶跑)前⾯的系数⽐较⼤且为正值，那我们可以分析得到这个主

成分主要侧重于⼈的耐⼒⽅⾯（肺活量，400⽶，800⽶这三个指标本⾝就体现了⼀个⼈的耐⼒）；同理如果某个主成分PC2，在X5,X6,

对着的前⾯系数⽐较⼤，说明我们分析得到的这个主成分是衡量⼈的爆发⼒⽅⾯。但是注意，并不是每⼀个主成分都可以分析出它们的意

义。

我们可以看到前⾯两个主成分是彼此独⽴的，衡量⼈体育成绩不同⽅⾯的，这也是符合我们寻找主成分的定义的。接下来我们看⼀下，主成

分分析的具体原理⼜是怎么实现的呢？

2基本思想

在展开PCA数学原理之前，我们先整体把握⼀下其思想：

PCA算法是⼀种降维算法，降维就不可避免的涉及到数据的损失，就好⽐在三维世界中你看到的⼀个球，在⼆维世界中你只能看到⼀个⾯。

怎么让我们的数据经过降维之后，尽可能的保留原始信息，这是我们需要解决的。

我们期望找到主成分彼此之间尽可能的独⽴，就⽐如前⾯例题中找到的主成分，分别来侧重说明某⼀⽅⾯，相互独⽴。如果不是相互独⽴，

说明我们找的主成分不具有代表性，是不符合要求的。

总结⼀下：

降维后数据尽可能损失⼩

得到主成分之间尽可能独⽴

以上就是我们PCA算法的基本思想，想深⼊继续理解的同学可以继续往下看，不想深⼊了解的，直接想调⽤代码的可以直接略过下⼩节。

3数学原理

在这⾥，我们不多赘述复杂的过程与推导，我们只关⼼理解算法，了解算法，知道算法是怎么来的，怎么解决的，有⼤体的了解就ok了。

我们⾸先有数据集如下图所⽰：

这⾥每⼀⾏代表⼀个特征（N），每⼀列代表⼀个样本（M），同时我们选择N个R维的正交基，如下图所⽰：

接下来我们会有：

⼤家对这⼀步不必过于纠结，这⼀步就是进⾏⼀个线性的变化，进⾏降维的过程，可以看到经过⼀个矩阵P进⾏处理后，我们得到的矩阵

X’的维度发⽣了变化，每⼀⾏仍然代表是特征，但是此时的特征数变成R（RN）,样本的数⽬没有变，达到了我们降维的⽬的。同时对于

变化后的每⼀个变量，有：

j1j2j...+px

px=px+px+iNNN

ii1i2

是线性的关系，也就是为什么我们说PCA是⼀种线性降维。当然我们也有⾮线性降维，后续我们还会继续讨论这个问题。

我们回头再看我们的问题，我们可以找任何⼀个P矩阵对我们

您可能关注的文档

文档评论（0）

150****6105 + 关注: 实名认证

文档贡献者

硕士毕业生

咨询Ta 进入空间

1亿VIP精品文档

更多 >

“深入浅出数学建模”之主成分分析.pdfVIP