SAS学习系列34. 因子分析
34.因子分析
(一)基本原理
一、概述
因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。通常情况下,这些相关因素并不能直观观测。
因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。
因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
主成分分析是因子分析的特例。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。
因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。
二、原理
假设样品检测p个指标(变量)X1, …, Xp,得到观测矩阵X,这p个指标变量可能受m(mp)个共同因素f1,…fm的影响,再加上其它影响因素。表示为:
用矩阵表示为
其中,共同影响因素f1,…fm是均值为0方差为1的随机变量,称为公共因子;Ap×m称为因子载荷矩阵,aji是第j变量在第i公共因子上的负荷,即Xj在坐标轴fi上的投影;ei是变量Xi所特有的因子,均值为0方差为σi2,称为特殊因子。各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即COV(ei, ej)=0, COV(e, f)=0.
因子分析就是用f1,…fm代替X1, …, Xp, 达到降维的目的。
主成份分析中,残差通常是彼此相关的。因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。
在开始提取公共因子时,已假定它们彼此不相关且具有单位方差。故向量X的协方差矩阵Σ可以表为
Σ=D(X)=D(Af+e)=AAT+D
其中,D=diag(σ12, …, σp2). 若假??X已标准化,即每个Xi都均值为0方差为1. 则
记称为变量共同度,则有.
hi2反映了公共因子f对Xi的影响(贡献),即Xi对共同因素f的依赖程度;σi2为剩余方差,若hi2接近1,σi2很小,则表明因子分析的效果好。
公共因子fj对Xi的影响,可由A中第j列元素来描述,
称为公共因子fj对X的贡献,是衡量公共因子重要性的尺度。
aij为第i个变量与第j个公共因子的相关系数,反映了它们的相关程度:
三、求因子载荷矩阵
若X的协方差矩阵∑和D已知,则根据∑-D=AAT求出A
其中,λ1≥λ2≥…λmλm+1=…=λp=0为∑*=∑-D的特征值,ξi为相应的特征向量。
但在实际问题中,并不知道∑和D,就需要从n个样品,p个指标的np个样本数据,估计因子载荷aij和特殊因子方差σi2. 常用的参数估计法有:主成分法、主因子解法、极大似然法。
(1)主成分法
记样本数据的协方差矩阵为,其特征值λ1≥λ2≥…≥λp≥0, 相应的特征向量为ξi. 当最后p-m个特征值较小时,对做谱分解:
先取,看是否接近对角矩阵,若是,说明只取一个公共因子就行了,所有指标主要受到这一个公共因子的影响;若否,再取,看是否接近对角矩阵……象主成分分析一样,直接取前q个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85%以上即可。此时,特殊因子方差为
(2)主因子解法
主因子解法是对主成分法的修正,记样品数据的相关矩阵为R,设R= AAT + D,则R* = R–D = AAT称为约相关矩阵。若已知特殊因子方差的初始估计,则,故
计算R*的特征值λ1*≥λ2*≥…≥λp*0,相应的特征向量为ui*, 则有近似分解式:R* = AAT, 其中
令
则A和D为因子模型的一个解,称为主因子解。
在实际中特殊因子方差是未知的,以上得到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的
作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。
变量共同度hi2常用的初始估计有以下三种方法:
① 取第i个变量与其他所有变量的多重相关系数的平方;
② 取第i个变量与其他变量相关系数绝对值的最大值;
③ 取1(等价于主成分解)。
(3)极大似然法
假定公共因子f和特殊因子e服从正态分布,则可得到因子载荷阵和特殊因子方差的极大似然估计。设p维观测向量X(1),...,X(n)为来自正态总体Np(μ,∑)的随机样品,则样品似然函数为μ,∑的函数L(μ,∑).
您可能关注的文档
- PS图形绘制.ppt
- ps面料缩减.ppt
- PT200工程师培训_C.ppt
- ps的分辨率.doc
- PTC简介.ppt
- PVA-聚乙烯醇2.ppt
- PVC-U施工手册.doc
- PVC增韧剂.doc
- PVC-U给水管配方.ppt
- PVD_CHN(薄膜气相沉积).ppt
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
最近下载
- 广州数控GSK980TA1-TA2-TB1-TB2车床数控系统 使用手册.pdf
- 虚实乱针绣入门.ppt VIP
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验.pdf
- 曲柄连杆机构的运动与受力分析讲解学习.pptx VIP
- 如此伟大的爱G波利切un amore cosi grande G-E-G-F-5P.pdf VIP
- 钛白废酸废水综合治理项目可行性研究报告.docx
- 陕09J02-屋面-标准图集.docx
- 中药当归中阿魏酸的提取工艺研究.pptx
- 蔬菜大棚建设实施方案范文(8篇).docx VIP
- 结合多源异构数据融合技术的人口增长时空预测模型构建及应用分析.pdf VIP
原创力文档

文档评论(0)