- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 多元数据分析; 1、主成分分析的概念
2、主成分分析方法;主成分分析的概念;主成分分析的概念;主成分分析的概念;主成分分析的概念;例:成绩数据;从本例可能提出的问题;本例中的数据点是六维的;即每个观测点是6维空间中的一个点。我们希望把6维空间用低维空间表示。;先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵
这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维降到了一维。;当坐标轴和椭圆的长短轴平行,代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。
但坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。
如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。
椭圆(球)的长短轴相差得越大,降维也越有道理。;;对于多维变量的情况和二维类似,也有高维的椭球。
首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。
注意:和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。 ;正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。
选择越少的主成分,降维就越好。什么是标准呢?
那就是这些被选的主成分所代表主轴的长度之和占了主轴长度总和的大部分。
所选的主轴总长度占所有主轴长度之和的大约85%即可。;这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。 ;怎么解释这两个主成分?前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?;如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六个变量x1,x2,x3,x4,x5,x6与第一和第二主成分y1,y2的关系为:
x1=-0.806y1 + 0.353y2
x2=-0.674y1 + 0.531y2
x3=-0.675y1 + 0.513y2
x4= 0.893y1 + 0.306y2
x5= 0.825y1 + 0.435y2
x6= 0.836y1 + 0.425y2;这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。
比如x1表示式中y1的系数为-0.806,这就是说第一主成分和数学变量的相关系数为-0.806。
相关系数(绝对值)越大,主成分对该变量的代表性也越大。
第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。 ;可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。;A typical data analysis situation;Data set Raspberry Jams;Sample comparison according to 1 variable: Redness;Sample comparison according to 2 variables: Redness and colour;Sample comparison according to 3 variables: Redness, colour and R. Smell;Sample comparison according to all 12 variables: multivariate model (PCA);Sample comparison according to all 12 variables: multivariate model (PCA);Sample comparison according to all 12 variables: multivariate model (PCA);Principal Component Analysis (PCA);The principles of Principal Component Analysis (PCA);The original data points, plotted on the original axes of variables (X1, X2, X3)
For convenience, we have a
您可能关注的文档
- 民营企业进入战略性新兴产业的瓶颈及路径.pdf
- 视频编码模块(网络模块)原理和应用.pdf
- 【创新设计】2014高考地理一轮复习 第10篇 第5讲 限时规范训练 湘教版.doc
- 产品经理时代正在慢慢结束?不,是一个新时代开启.pdf
- 第07章 集团利润倍增十步法.pdf
- 全球气候变化背景下中国产业低碳发展研究.pdf
- 会议策划及组织 0-1.ppt
- 音频编解码技术介绍要领.pdf
- 2009年布局原则514152334528(新).ppt
- 第八篇 成本计算.ppt
- 河北省山海关区招聘68人笔试管理单位遴选200模拟题完整版【综合卷】.docx
- 河南省月山啤酒股份有限公司内部使用招聘172人公开引进高层次人才笔试参考题库(共100题)答案真题题.docx
- 河北建工集团内部使用毕业生专项招聘生产储备岗100题模拟试题附带答案及答案【夺冠】.docx
- 河南安彩集团整理招聘762人公开引进急需紧缺人才笔试参考题库(共100题)答案通关秘籍题库(B卷).docx
- 河北省南堡盐场历年招聘172人公开引进高层次人才笔试参考题库(共100题)答案题库大全附答案(黄金题.docx
- 河北省康保县2024年人民医院招聘历年高频难、易错点200题模拟试题通关秘籍题库【名师系列】.docx
- 河南省太康县2024年事业单位招聘34人历年高频难、易错点练习200题通关秘籍题库含答案(精练).docx
- 河南济源钢铁(集团)应届高校毕业生招聘高频考题难模拟试题(共100题)附带答案真题及答案.docx
- 河北沧州化工实业集团内部使用招考聘用6人(高频重点提升专题训练)共100题附带答案真题题库带答案(B.docx
- 河北宣化工程机械股份有限公司2023-2024年总部社会招聘补招7人模拟试题(共100题)附带答案完.docx
文档评论(0)