主成分分析谷冠鹏河北科技学院20125.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析谷冠鹏河北科技学院20125

3.7 计算总分,进行排名 补充:逆向指标问题 例如设有7个环保指标: X 1:人均绿地面积( m2 ) ; X 2:建成区绿化覆盖率(% ); X 3 :治污科研和治污投资占GDP的比例(% ); X 4 :三废综合利用产值(万元) ; X 5 :工业二氧化硫排放量( t /km2 ); X 6:工业烟尘排放量( t /km2 ); X 7 :工业废水排放量(万吨). 要求根据这7个指标对8个城市(样本)进行环保质量好坏的评价, 并给出8个城市的综合得分和总排名. 这7个指标中X 1 ~ X 4 是正向指标。 正向指标的数值越大,城市环境就越好。 X 5 ~ X 7 是逆向指标。逆向指标的数值越大,城市环境就越差。 此时,必须对逆向指标进行正向化处理。 可以采用2种正向化方法进行处理: 方法1:是把逆向指标的数据加负号, 方法2:是把逆向指标的数据取倒数。 主成分分析用MINITAB软件操作较为简单 主成分分析 谷冠鹏 河北大学管理学院 2013.3.25 由皮尔逊(Pearson,1901)首先引入 后来霍特林(Hotelling,1933)发展了这一方法。 1.为何进行主成分分析 在收集有关现象的信息时,由于担心遗漏重要信息,往往会尽可能多地设置一些指标(在多元统计分析中也称为变量),但指标多了,也会产生一些麻烦: ——指标多了,变量多了,问题或现象的分析会变得相当复杂,使得我们雾里看花,或者需要建立包含众多变量的复杂模型; ——这些指标、变量之间可能存在相关,造成信息重叠,出现较严重的多重共线性,引起较大的误差。 那么,能否找到一种方法,以较少的指标尽可能多地反映原始指标所包含的信息呢?这种方法就是主成分分析。 主成分分析的一般目的是: (1)将数目较多的指标(变量)转化为数目较少的指标 (在数学上称为“降维”) (2)将彼此相关的指标转化为彼此不相关的指标 (3)将意义单一的指标转化为具有综合意义的指标 应用领域: ——多指标综合评价。在进行多指标综合评价时,主成分分析能很好地进行信息浓缩,消除指标之间的相关,并解决权重的合理确定问题 ——主成分回归分析。 X1 X2 X3 X4 X5 X6 X7 原始变量 原始变量标准化 ZX1 ZX2 ZX3 ZX4 ZX5 ZX6 ZX7 新的综合变量 F1 F2 F7 综合变量的方差 (特征根) λ1 λ 2 λ 7 …… …… 表达式中各变量的系数(对应的特征向量) a11 a12 a13 a14 a15 a16 a17 a21 a22 a23 a24 a25 a26 a27 a71 a72 a73 a74 a75 a76 a77 …… 2 统计思想 特征根、特征向量由何而来?变量之相关矩阵 2.1基本思想 主成分是原始变量的线性组合 主成分是由原始变量的线性组合来表达的,因此主成分成为综合变量。 主成分与各个原始变量存在着不同程度的相关。如果F1与X1、X3、X4相关程度较高,而与X2、X5、X6、X7相关程度较低,我们就说,主成分F1主要抽取了原始变量X1、X3、X4所携带的信息。 有多少个原始变量,就可以得到多少个新的综合变量。 主成分所携带的信息就是主成分的方差 在统计学上,所谓的信息是指数据的变异,或者离散程度。变异,或离散程度,可以方差来度量。如果将原始变量标准化,每个标准化后的变量的方差均为1。这样,10个标准化的变量的总方差就是10,或者说,10个标准化的变量所携带的信息总量就是10。 我们将主成分所携带的信息称为主成分的特征根(或特征值)。 特征根反映了主成分的影响力度,表示引入主成分可以解释原始变量所携带信息的多少。 特征根(方差)最大的主成分,称为第一主成分;特征根次大的,称为第二主成分。以此类推。 某一主成分的方差(特征根)在总的方差(所有特征根之和)中的比重,称为该主成分的方差贡献率。方差贡献率越大,表明该主成分抽取(综合)原始变量的信息的能力越强。 将主成分按特征根大小排列。前面K个主成分累计抽取原始变量信息的比例,称为前K个主成分的累计方差贡献率。 一般地,当前K个主成分的累计贡献率达到85%以上,就意味着这K个主成分基本包含了全部测量所携带的主

文档评论(0)

wangsux + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档