- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS学习系列30. 主成份分析
30. 主成份分析
一、基本原理
主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。
在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0. 依此类推可以构造出第三、第四、…、第p个主成分。
主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。
设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,…,Xp,得到原始数据资料阵:
其中,Xi = (x1i,x2i,…,xni)T,i = 1, …, p.
用数据矩阵X的p个列向量(即p个指标向量)X1,…,Xp作线性组合,得到综合指标向量:
简写成:
Fi = a1iX1 + a2iX2 +…+apiXp i = 1, …, p
限制系数ai = (a1i,a2i,…,api)T为单位向量,即
且由下列原则决定:
(1)Fi与Fj互不相关,即COV(Fi, Fj)= aiT∑ai=0,其中∑为X的协方差矩阵;
(2)F1是X1,X2,…,Xp的所有满足上述要求的线性组合中方差最大的,即
F2是与F1不相关的X1,…,Xp所有线性组合中方差最大的,…,Fp是与F1,…,Fp-1都不相关的X1,…,Xp所有线性组合中方差最大的。
满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数
ai = (a1i,a2i,…,api)T
就是特征值λi所对应的单位特征向量。方差的贡献率为
αi越大,说明相应的主成分反映综合信息的能力越强。
注:主成分分析是将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。F1,F2,…,Fp可以理解为p维空间中互相垂直的p个坐标轴。
基本步骤:
(1)计算样品数据协方差矩阵Σ = (sij)p?p,其中
(2) 求出Σ的特征值及相应的特征向量λ1λ2…λp0, 及相应的正交化单位特征向量:
则X的第i个主成分为Fi= aiTX,i=1, …, p.
(3)选择主成分
在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率
解释主成分Fi所反映的信息量的大小,m的确定是用累计贡献率
达到足够大(一般在85%以上)为原则。
(4)计算n个样品在m个主成分得分
注:标准化后变量的协方差矩阵Σ = (sij)p?p,与原变量的相关系数矩阵R= (rij) p?p相同,故主成分分析可以从原始变量数据的相关系数矩阵,也可以从标准化数据的协方差矩阵出发做分析。
二、主成分分析实例
例1对我国30个省市经济发展的8个指标做主成份分析。数据文件如下:
x1=GDP;x2=居民消费水平;x3=固定资产投资;
x4=职工平均工资;x5=货物周转量;x6=居民消费价格;
x7=商品价格指数;x8=工业总产值。
1. 【分析】——【降维】——【因子分析】,打开“因子分析”窗口,将变量“x1-x8”选入【变量】框;
2. 点【描述】,打开“描述统计”子窗口,勾选【统计量】下的“单变量描述性”、“原始分析结果”,【相关矩阵】下的“系数”;点【继续】;
其它保持默认即可,【抽取】选项,抽取方法默认就是“主成份”,默认只选取特征值大于1的主成分。
注意:SPSS进行因子(主成份)分析时,自动对原始变量进行标准化处理,输出结果中的变量通常都是指标准化后的变量。
点【确定】,得到
描述统计量均值标准差分析 NGDP1921.09271474.8060330居民消费水平1745.9333861.6419330固定资产投资511.5083402.8854830职工平均工资5447.63331317.4433030货物周转量666.1200459.9352630居民消费价格指数117.28672.0253130商品价格指数114.90671.8980830工业总产值862.9980584.5872630描述各变量的基本信息:均值、标准差、样本数。
相关矩阵GDP居
您可能关注的文档
- PLSQL语言的运用.doc
- MUJI无印良品市场营销.pptx
- PCBA摆放拿取作业指导书.doc
- POS机票据打印.doc
- P2F 融星行 结案报告.ppt
- PPAP(中英版本).ppt
- plastic pollution.ppt
- PPT,书籍,你好(新).pptx
- POS机的主动营销 袁杰宏.ppt
- 液相色谱仪的维护与常见故障教程.ppt
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
最近下载
- 文献综述中小企业成本控制研究.docx VIP
- (2025春新版本)人教版七年级历史下册全册教案.pdf
- 北京市一零一中学2023-2024学年七年级下学期期中考试英语试卷(含答案).pdf
- 物业管理服务报价表完整优秀版 .pdf VIP
- 文献综述--中小企业成本控制的研究.doc VIP
- 莒县鸿瑞矿业有限公司新型节能环保型石灰窑项目(三期)竣工环境保护验收监测报告.docx VIP
- 第9课 近代西方的法律与教化 教案-统编版(2019)高中历史选择性必修1国家制度与社会治理.pdf
- ZOOM声乐乐器L-12 快速入门 (Chinese)说明书用户手册.pdf
- 基于单片机的宠物喂养系统的设计与实现.docx
- 中小学(三阶魔方的复原)校本教材.doc VIP
文档评论(0)