系统工程第3章 主成分分析经典教程.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
*;在综合评价工业企业的经济效益中,考核指标有: 1每百元固定资产原值实现产值、 2每百元固定资产原值实现利税、 3每百元资金实现利税、 4每百元工业总产值实现利税、 5每百元销售收入实现利税、 6每吨标准煤实现工业产值、 7每千瓦电力实现工业产值、 8全员劳动生产率、 9每百元流动资金实现的产值 指标间信息有重叠,指标数量又多。 经过主成分分析计算,最后确定选择了2个主成分作为综合评价工业企业经济效益的依据,变量数由9个减少到2个,这两个主成分代表的信息达91.6%,使所研究的问题简化。;主成分分析的几何意义: 为了直观,先在二维空间中讨论主成分的几何意义。 一般情况下,例如有n个样品,每个样品有两个变量值X1和X2,这n个样品的散点图如带状.;由图可见这n个样品点无论是沿着X1轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量X1的方差和X2的方差定量地表示。;?;?;当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维效果就越好。;对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。 ;正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。 选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,具体选几个,要看实际情况而定。;;主成分分析通常的做法是,寻求原指标的线性组合Yi。;主成分的求解: ;在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用P个主成分,而是根据如下方法选取前K个主成分。 定义 为第i主成分Yi的方差贡献率。 这个值越大,说明这个主成分Yi综合原指标信息的能力越强。;定义 ( K≤P) 为主成分Yl, Y2,…,Yk的累积方差贡献率。 当前K个主成分的累积方差贡献率达到85%以上时,就取K个主成分。这样K个主成分基本反映了原指标的信息,指标数目由P个减少到K个。 ;主成分得分: 当选取了n个主成分后,把样本数据代入各主成分表达式可得样本的主成分得分。 若主成分是由原始数据协方差阵计算的,则计算主成分得分时,用原始数据。 若主成分是由标准化数据计算,即由R计算,则计算主成分得分时,一定要用标准化数据,否则会出现错误。;量纲相同,用协方差阵求解主成分的步骤;例1 下面是8 个学生两门课程的成绩表 ;;3.求特征值所对应的单位特征向量 ;4. 得到主成分的表达式 ;6. 比较主成分重要性 ;;1. 求样本均值和样本协方差矩阵;4. 由此我们可以写出三个主成分的表达式: ;三个主成分的方差贡献率分别为: ;量纲不同,用相关阵计算主成分的步骤:;变量的标准化: 由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响, 例如: X1表年收入,从万元到百万元变化, X2表净收入与总资产之比,从0.01到0.60变化, 那么X1的方差的绝对量将远远大于X2的方差, 这样主成分会过于照顾方差大的变量,为使主成分能均等地对待每一个原变量,应将原变量作标准化处理.;例1 对全国30个省市自汉区经济发展基本情况的八项指标作主成分分析,原始数据如下: ;? ;第一步 将原始数据标准化。 第二步 建立指标之间的相关数阵R如下:;第三步 求R的特征值和特征向量。;从上表看,前3个特征值计累计贡献率已达89.564%,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:;因而前三个主成分为: 第一主成分: F1=0.456708X1+0.312729X2+0.470641X3+0.240481X4+0.250802X5 -0.26267 X6-0.31944 X7+0.424712 X8 第二主成分: F1 =0

文档评论(0)

youngyu0301 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档