SAS学习系列33.主成分分析报告.doc

下载文档 降价啦

25
0
约8.61千字
约 16页
2019-05-24 发布于安徽
举报
版权申诉
保障服务

SAS学习系列33.主成分分析报告.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实用标准文案文档大全 33. 主成分分析（一）原理一、基本思想主成份分析，是数学上对数据降维的一种方法，是将多个变量转化为少数综合变量（集中了原始变量的大部分信息）的一种多元统计方法。其主要目的是将变量减少，并使其改变为少数几个相互独立的线性组合形成的新变量（主成份，其方差最大），使得原始资料在这些成份上显示最大的个别差异来。在所有的线性组合中所选取的F1应该是方差最大的，称为第一主成分。如果第一主成分不足以代表原来所有指标的信息，再考虑选取第二个线性组合F2, 称为第二主成分。为了有效地反映原有信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1，F2)＝0. 依此类推可以构造出第三、第四、…、第p个主成分。主成份分析，可以用来综合变量之间的关系，也可用来减少回归分析或聚类分析中的变量数目。二、基本原理设有n个样品（多元观测值），每个样品观测p项指标（变量）：X1，…，Xp，得到原始数据资料阵：其中，Xi = (x1i，x2i，…，xni)T，i = 1, …, p. 用数据矩阵X的p个列向量（即p个指标向量）X1，…，Xp作线性组合，得到综合指标向量：简写成： Fi = a1iX1 + a2iX2 +…+apiXp i = 1, …, p 限制系数ai = (a1i，a2i，…，api)T为单位向量，即且由下列原则决定：（1）Fi与Fj互不相关，即COV(Fi, Fj)= aiT∑ai=0，其中∑为X的协方差矩阵；（2）F1是X1，X2，…，Xp的所有满足上述要求的线性组合中方差最大的，即 F2是与F1不相关的X1，…，Xp所有线性组合中方差最大的，…，Fp是与F1，…，Fp-1都不相关的X1，…，Xp所有线性组合中方差最大的。满足上述要求的综合指标向量F1，F2，…，Fp就是主成分，这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减，每一个主成分所提取的信息量用方差来度量，主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi，每一个主成分的组合系数 ai = (a1i，a2i，…，api)T 就是特征值λi所对应的单位特征向量。方差的贡献率为 αi越大，说明相应的主成分反映综合信息的能力越强。注：主成分分析是将原始变量组成的坐标系进行平移变换，使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。F1，F2，…，Fp可以理解为p维空间中互相垂直的p个坐标轴。三、基本步骤 1. 计算样品数据协方差矩阵Σ = (sij)p?p，其中 2. 求出Σ的特征值及相应的特征向量λ1λ2…λp0, 及相应的正交化单位特征向量：则X的第i个主成分为Fi= aiTX，i=1, …, p. 3. 选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小，m的确定是用累计贡献率达到足够大（一般在85%以上）为原则。 4. 计算n个样品在m个主成分得分 5. 数据的标准化实际应用时，指标的量纲往往不同，所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法，常用方法是将原始数据标准化其中，即把每列变为均值为0，方差为1. 注：标准化后变量的协方差矩阵Σ = (sij)p?p，与原变量的相关系数矩阵R= (rij) p?p相同，故主成分分析可以从原始变量数据的相关系数矩阵，也可以从标准化数据的协方差矩阵出发做分析。（二）PROC PRINCOMP过程步基本语法：PROC PRINCOMP data = 数据集可选项 ; BY 变量; FREQ 变量; ID 变量; PARTIAL 变量列表; VAR 变量变量; WEIGHT 变量; 说明：（1）可选项 type = COV/CORR 原始数据用CORR（相关系数矩阵，默认）；标准化数据用COV（协方差矩阵）； out＝数据集——存储原始数据和各主成分得分（相应特征值）； outstat＝数据集——存储若干统计量； n=——设定主成分个数； std——OUT=数据集中，将主成分得分标准化为单位方差； noint——要求模型中不含截距。（2）VAR语句——指定做主成分分析的变量；（3）PARTIAL语句——指明对偏相关阵或偏协方差矩阵进行分析时，被偏出去的数值变量名。例1 对全国30个省市自治区经济发展基本情况的八项指标作因子分析。省份 GDP x1 居民消费水平x2 固定资产投资x3 职工平均工资x4 货物周转量 x5 居民消费价格指数 x6 商品零售价格指数x7 工业总产值 x8 北京 1394.89 2505 519