- 12
- 0
- 约8.7千字
- 约 13页
- 2017-05-21 发布于河南
- 举报
SAS学习系列33. 主成分分析
33. 主成分分析
(一)原理
一、基本思想
主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。
在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0. 依此类推可以构造出第三、第四、…、第p个主成分。
主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。
二、基本原理
设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,…,Xp,得到原始数据资料阵:
其中,Xi = (x1i,x2i,…,xni)T,i = 1, …, p.
用数据矩阵X的p个列向量(即p个指标向量)X1,…,Xp作线性组合,得到综合指标向量:
简写成:
Fi = a1iX1 + a2iX2 +…+apiXp i = 1, …, p
限制系数ai = (a1i,a2i,…,api)T为单位向量,即
且由下列原则决定:
(1)Fi与Fj互不相关,即COV(Fi, Fj)= aiT∑ai=0,其中∑为X的协方差矩阵;
(2)F1是X1,X2,…,Xp的所有满足上述要求的线性组合中方差最大的,即
F2是与F1不相关的X1,…,Xp所有线性组合中方差最大的,…,Fp是与F1,…,Fp-1都不相关的X1,…,Xp所有线性组合中方差最大的。
满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数
ai = (a1i,a2i,…,api)T
就是特征值λi所对应的单位特征向量。方差的贡献率为
αi越大,说明相应的主成分反映综合信息的能力越强。
注:主成分分析是将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。F1,F2,…,Fp可以理解为p维空间中互相垂直的p个坐标轴。
三、基本步骤
1. 计算样品数据协方差矩阵Σ = (sij)p?p,其中
2. 求出Σ的特征值及相应的特征向量λ1λ2…λp0, 及相应的正交化单位特征向量:
则X的第i个主成分为Fi= aiTX,i=1, …, p.
3. 选择主成分
在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率
解释主成分Fi所反映的信息量的大小,m的确定是用累计贡献率
达到足够大(一般在85%以上)为原则。
4. 计算n个样品在m个主成分得分
5. 数据的标准化
实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化
其中,
即把每列变为均值为0,方差为1.
注:标准化后变量的协方差矩阵Σ = (sij)p?p,与原变量的相关系数矩阵R= (rij) p?p相同,故主成分分析可以从原始变量数据的相关系数矩阵,也可以从标准化数据的协方差矩阵出发做分析。
(二)PROC PRINCOMP过程步
基本语法:PROC PRINCOMP data = 数据集 可选项 ;
BY 变量;
FREQ 变量;
ID 变量;
PARTIAL 变量列表;
VAR 变量变量;
WEIGHT 变量;
说明:
(1)可选项
type = COV/CORR
原始数据用CORR(相关系数矩阵,默认);标准化数据用COV(协方差矩阵);
out=数据集——存储原始数据和各主成分得分(相应特征值);
outstat=数据集——存储若干统计量;
n=——设定主成分个数;
std——OUT=数据集中,将主成分得分标准化为单位方差;
noint——要求模型中不含截距。
(2)VAR语句——指定做主成分分析的变量;
(3)PARTIAL语句——指明对偏相关阵或偏协方差矩阵进行分析时,被偏出去的数值变量名。
例1 对全国30个省市自治区经济发展基本情况的八项指标作因子分析。
省份GDP
x1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量
x5居民消费价格指数
x6商品零售价格指数x7工业总产值
x8北京1394.892505519.01814437
您可能关注的文档
- 全国名校大联考2016届高三第二次联考化学试题(Word).doc
- 2013年重庆市事业单位公开招聘工作人员考试 《综合基础知识》全真模拟预测试卷一.doc
- LISREL软件验证性因素分析完整版.ppt
- 液相色谱基础知识及方法开发.ppt
- AT常温阻值25°C=103±0.5% 3950K.doc
- 工程经济学12-23(6-7)第三份共四份.ppt
- 世界当代三代、四代战斗机.ppt
- 找规律,填数。.ppt
- 《全国统一安装工程预算定额江苏省单位估价表2001》第2分册电气设备安装.doc
- SecureCRT使用进阶篇.docx
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 传媒法规与伦理教学课件(共22章)新闻伦理研究综述.pdf VIP
- 汽车行驶记录仪产品使用说明书.PDF VIP
- 2026年成都市美容医疗诊所医美项目安全规范运营可行性研究报告.docx VIP
- ocean培训petrel re快速入门工作流程.pdf VIP
- (四年级奥数班讲义.doc VIP
- 单病种病案数据填报指导手册.doc
- 企业 IPO 筹备方案(最新版,附时间表 + 材料).docx VIP
- 深圳初三数学联考模拟试题.docx VIP
- 高考历史二轮总复习精品课件 第四板块 世界现代史 第十七讲 现代科技的发展与当今世界发展的趋势.ppt VIP
- 2024年菏泽职业学院单招数学考试模拟试题及答案解析.docx VIP
原创力文档

文档评论(0)