- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 主分量(主成分)分析 概 述 主分量分析的基本原理 主分量分析的计算步骤 主分量分析主要的作用 使用PRINCOMP过程进行主成分分析 主分量分析方法应用实例 主成分概念首先由Karl Parson在1901年首先提出,当时只是对非随机变量来讨论的.1933年Hotelling将这个概念推广到随机变量,作了进一步发展.把从混合信号中求出主分量(能量最大的成份)的方法称为主分量分析. (principal components analysis,PCA) 三、主分量分析的计算步骤 (一)计算相关系数矩阵(假设该矩阵为正定阵) rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为 在实际工作中,主成分个数的多少取决于能够反映原来变量85%以上的信息量为依据,即当累积贡献率≥85%时的主成分的个数就足够了.最常见的情况是主成分为2到3个. 四、主分量分析主要作用 1.对原始指标进行综合 以互不相关的较少个综合指标反应众多原始指标提供的信息. 3.进行探索性分析 利用因子载荷阵,找出影响各综合指标的主要原始指标. 4.对样品进行分类 利用主成分得分对样品进行分类. 五、使用PRINCOMP过程进行主成分分析 1. PRINCOMP过程的功能简介 1) PRINCOMP过程计算结果有:简单统计量,相关 阵或协方差阵,从大到小排序的特征值和相应特征向 量,每个主成分解释的方差比例,累计比例等. 由特征向量得出相应的主成分,用少数几个主成分代 替原始变量,并计算主成分得分. 2) 主成分的个数可以由用户自己确定,主成分的名 字可以用户自己规定. 3) 输入数据集可以是原始数据集、相关阵、协方差阵等.输入为原始数据时,还可以规定从协方差阵出发还是从相关阵出发进行分析,由协方差阵出发时方差大的变量在分析中起到更大的作用. 4) 该过程还可生成两个输出数据集:一个包含原始数据及主成分得分,它可作为主成分回归和聚类分析的输入数据集;另一个包含有关统计量,类型为TYPE = CORR或COV的输出集,它也可作为其他过程的输入SAS集. 2. PRINCOMP过程的格式 PRINCOMP过程的常用格式如下: PROC PRINCOMP 选项列表; VAR 变量列表; RUN; 其中: 1) PROC PRINCOMP语句用来规定输入输出和一些运行选项,其选项及功能见表7-1. 表7-1 PROC PRINCOMP语句的选项 2) VAR语句指定用于主成分分析的变量,变量必须为数值型(区间型)变量.缺省使用DATA = 输入数据集中所有数值型变量进行主成分分析. 六、主分量分析方法应用实例 例1 对全国30个省市自治区经济发展基本情况的八项指标作 主成分分析,原始数据如表7-2. 表7-2 全国30个省市自治区经济发展基本情况 (1) 数据集 假定上述数据已经存放在数据集li7_1中. (2) 执行主成分分析的PRINCOMP过程 对数据集li7_1执行主成分分析的PRINCOMP过程代码 如下: proc princomp data = li7_1 n = 4 out = w1 outstat = w2; var x1-x8; run; (3) 结果分析 在各变量之间的相关系数矩阵中可以看出,有较强相关性 的变量依次为: GDP(x1)与固定资产投资(x3)之间的相关系数为0.9506; GDP(x1)与工业总产值(x8)之间的相关系数为0.8737; 固定资产投资(x3)与工业总产值(x8)之间的相关系数0.7919; 居民消费价格指数(x6)与商品零售价格指数(x7)之间的相关 系数为0.7628; 货物周转量(x5)与工业总产值(x8)之间的相关系数为0.6586 等等. 下图给出相关系数矩阵的特征值、上下特征值之差、各主成分对方差的贡献率以及累积的贡献率. 相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分对方差的贡献率为46.94%,第二主成分对方差的贡献率为27.46%,第三主成分对方差的贡献率为15.19%,之后的主成分的贡献率为0.05.前三个主成分的累积贡献率为89.58%,因此,对第四主成分以后的主成分完全可以忽略不计,用前三个主成分就可以很好地概括这组数据.
文档评论(0)