R语言主成分和因子分析.docx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R语言主成分和因子分析课件

R语言主成分和因子分析主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。1.R中的主成分和因子分析R的基础安装包中提供了PCA和EFA的函数,分别为princomp?()和factanal()psych包中有用的因子分析函数函数描述 principal()含多种可选的方差放置方法的主成分分析fa()可用主轴、最小残差、加权最小平方或最大似然法估计的因子分析fa.parallel()含平等分析的碎石图factor.plot()绘制因子分析或主成分分析的结果fa.diagram()绘制因子分析或主成分分析的载荷矩阵scree()因子分析和主成分分析的碎石图PCA/EFA 分析流程:(1)数据预处理;PCA和EFA都是根据观测变量间的相关性来推导结果。用户可以输入原始数据矩阵或相关系数矩阵列到principal()和fa()函数中,若输出初始结果,相关系数矩阵将会被自动计算,在计算前请确保数据中没有缺失值;(2)选择因子分析模型。判断是PCA(数据降维)还是EFA(发现潜在结构)更符合你的分析目标。若选择EFA方法时,还需要选择一种估计因子模型的方法(如最大似然估计)。(3)判断要选择的主成分/因子数目;(4)选择主成分/因子;(5)旋转主成分/因子;(6)解释结果;(7)计算主成分或因子得分。2.主成分分析PCA的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。如第一主成分为:PC1=a1X1=a2X2+……+akXk ?它是k个观测变量的加权组合,对初始变量集的方差解释性最大。第二主成分是初始变量的线性组合,对方差的解释性排第二,同时与第一主成分正交(不相关)。后面每一个主成分都最大化它对方差的解释程度,同时与之前所有的主成分都正交,但从实用的角度来看,都希望能用较少的主成分来近似全变量集。(1)判断主成分的个数PCA中需要多少个主成分的准则:根据先验经验和理论知识判断主成分数;根据要解释变量方差的积累值的阈值来判断需要的主成分数;通过检查变量间k*k的相关系数矩阵来判断保留的主成分数。最常见的是基于特征值的方法,每个主成分都与相关系数矩阵的特征值关联,第一主成分与最大的特征值相关联,第二主成分与第二大的特征值相关联,依此类推。Kaiser-Harris准则建议保留特征值大于1的主成分,特征值小于1的成分所解释的方差比包含在单个变量中的方差更少。Cattell碎石检验则绘制了特征值与主成分数的图形,这类图形可以展示图形弯曲状况,在图形变化最大处之上的主成分都保留。最后,还可以进行模拟,依据与初始矩阵相同大小的随机数矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值,那么该主成分可以保留。该方法称作平行分析。利用fa.parallel()函数,可同时对三种特征值判别准则进行评价。[plain]?view plain?copy?library(psych)??fa.parallel(USJudgeRatings[,-1],fa=PC,n.iter=100,show.legend=FALSE,main=Screen?plot?with?parallel?analysis)??碎石头、特征值大于1准则和100次模拟的平行分析(虚线)都表明保留一个主成分即可保留数据集的大部分信息,下一步是使用principal()函数挑选出相应的主成分。(2)提取主成分principal()函数可根据原始数据矩阵或相关系数矩阵做主成分分析格式为:principal(的,nfactors=,rotate=,scores=)其中:r是相关系数矩阵或原始数据矩阵;nfactors设定主成分数(默认为1);rotate指定旋转的方式[默认最大方差旋转(varimax)]scores设定是否需要计算主成分得分(默认不需要)。[plain]?view plain?copy?美国法官评分的主成分分析??library(psych)??pc-principal(USJudgeRatings[,-1],nfactors=1)??pc??此处,输入的是没有ONT变量的原始,并指定获取一个未旋转的主成分。由于PCA只对相关系数矩阵进行分析,在获取主成分前,原始数据将会被自动转换为相关系数矩阵。PC1栏包含了成分载荷,指观测变量与主成分的相关系数。如果提取不止一个主成分,则还将会有PC2、PC3等栏。成分载荷(component loadings)可用来解释主成分

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档