- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
“深⼊浅出数学建模”之主成分分析
主成分分析(PCA)
好多⼩伙伴在学习数学建模的时候会遇到这么⼀个算法—主成分分析,顾名思义,是⽤来分析主要成分的。简单点说,就是对评价指标集进
⾏分析,得到新的若⼲个成分,来代替原始的评价指标(听不懂没关系!继续往下看,保证可以听得懂!)。
它是⼀种普遍的降维算法,在机器学习、⽣物分析等各个领域都有着⼴泛的应⽤。接下来,跟着我的思路,带你掌握这个算法,并学会如何
去应⽤!
1例题引⼊
⼤家设想⼀下这个例⼦,为了衡量⼀个⼈的体育综合能⼒,我们设有如下评价指标集{BMI(⾝⾼体重),肺活量,400⽶跑成绩,800⽶
跑成绩,跳⾼,跳远}。接着我们分析问题的时候,觉得这些指标太多了(似乎并不多,但是假设你觉得多),对我们分析问题⽐较⿇烦,
这个时候我需要对指标进⾏处理,这个时候我就进⾏主成分分析。很多同学对这有个误解,认为主成分分析出来的是从原来指标集中直接挑
出来的,绝对不是这样!⼤家请看下图:
在这个图中,左边是我们刚刚设定的变量,这⾥我⽤1-6来表⽰,右边是我们求出来的主成分(PC),为什么会有6个主成分呢?实际上我
们⽤matlab软件求出来的就是多少个指标对应着多少个主成分。有⼈会问,不是说好的降维吗,为啥还是六个主成分呢?别急,我们先保
留这个问题。
⼤家还需要注意的⼀点就是,每⼀个主成分和原来的指标都是存在⼀个线性关系的,我这⾥图中只画出来PC1,其他的PC也是这样的,也
就说,我们可以把PC1⽤下⾯公式表⽰:
PC=aX+bX+...+fX
1126
什么意思呢?也就是说,每⼀个主成分都和原来的变量有关系,并不是说主成分就是从原来变量中直接挑出来的,但是他是有⼀定意义的。
⽐如说,假设这个主成分PC1在X2,X3,X4(对应着肺活量,400⽶跑,800⽶跑)前⾯的系数⽐较⼤且为正值,那我们可以分析得到这个主
成分主要侧重于⼈的耐⼒⽅⾯(肺活量,400⽶,800⽶这三个指标本⾝就体现了⼀个⼈的耐⼒);同理如果某个主成分PC2,在X5,X6,
对着的前⾯系数⽐较⼤,说明我们分析得到的这个主成分是衡量⼈的爆发⼒⽅⾯。但是注意,并不是每⼀个主成分都可以分析出它们的意
义。
我们可以看到前⾯两个主成分是彼此独⽴的,衡量⼈体育成绩不同⽅⾯的,这也是符合我们寻找主成分的定义的。接下来我们看⼀下,主成
分分析的具体原理⼜是怎么实现的呢?
2基本思想
在展开PCA数学原理之前,我们先整体把握⼀下其思想:
PCA算法是⼀种降维算法,降维就不可避免的涉及到数据的损失,就好⽐在三维世界中你看到的⼀个球,在⼆维世界中你只能看到⼀个⾯。
怎么让我们的数据经过降维之后,尽可能的保留原始信息,这是我们需要解决的。
我们期望找到主成分彼此之间尽可能的独⽴,就⽐如前⾯例题中找到的主成分,分别来侧重说明某⼀⽅⾯,相互独⽴。如果不是相互独⽴,
说明我们找的主成分不具有代表性,是不符合要求的。
总结⼀下:
降维后数据尽可能损失⼩
得到主成分之间尽可能独⽴
以上就是我们PCA算法的基本思想,想深⼊继续理解的同学可以继续往下看,不想深⼊了解的,直接想调⽤代码的可以直接略过下⼩节。
3数学原理
在这⾥,我们不多赘述复杂的过程与推导,我们只关⼼理解算法,了解算法,知道算法是怎么来的,怎么解决的,有⼤体的了解就ok了。
我们⾸先有数据集如下图所⽰:
这⾥每⼀⾏代表⼀个特征(N),每⼀列代表⼀个样本(M),同时我们选择N个R维的正交基,如下图所⽰:
接下来我们会有:
⼤家对这⼀步不必过于纠结,这⼀步就是进⾏⼀个线性的变化,进⾏降维的过程,可以看到经过⼀个矩阵P进⾏处理后,我们得到的矩阵
X’的维度发⽣了变化,每⼀⾏仍然代表是特征,但是此时的特征数变成R(RN),样本的数⽬没有变,达到了我们降维的⽬的。同时对于
变化后的每⼀个变量,有:
j1j2j...+px
px=px+px+iNNN
ii1i2
是线性的关系,也就是为什么我们说PCA是⼀种线性降维。当然我们也有⾮线性降维,后续我们还会继续讨论这个问题。
我们回头再看我们的问题,我们可以找任何⼀个P矩阵对我们
您可能关注的文档
最近下载
- 10 往事依依 课件(共28张ppt).pptx VIP
- 广东各地暴雨强度公式.docx VIP
- 老年心肺功能减退全流程健康管理方案专家共识解读PPT课件.pptx VIP
- 高中成绩单模板完整可编辑版.docx VIP
- 福建省职业技能等级认定申报表.docx VIP
- 教科版小学科学三年级上册3-6《运动和能量》课件(2025新教材).pptx VIP
- 基于HSV-1的疫苗和融瘤病毒载体的构建.pdf VIP
- 易飞代理商高级生产应用认证考试(答案).docx VIP
- 承插式盘扣脚手架专项施工方案.docx VIP
- 重庆市第八中学校2023-2024学年九年级下学期第4次数学试卷(含答案).docx VIP
原创力文档


文档评论(0)