- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
R语言多元分析2012年09月19日 ?Script?暂无评论? 被围观 115 views+ A. 主成分分析主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是在处理观测数目小于变量数目时无法发挥作用,例如基因数据。R语言中进行主成分分析可以采用基本的princomp函数,将结果输入到summary和plot函数中可分别得到分析结果和碎石图。但psych扩展包更具灵活性。一、选择主成分个数选择主成分个数通常有如下几种评判标准:根据经验与理论进行选择 根据累积方差的门槛值,例如选择使累积方差达到80%的主成分个数。 根据相关系数矩阵的特征值,选择特征值大于1的主成分。 另一种较为先进的方法是平行分析(parallel analysis)。该方法首先生成若干组与原始数据结构相同的随机矩阵,求出其特征值并进行平均,然后和真实数据的特征值进行比对,根据交叉点的位置来选择主成分个数。我们选择USJudgeRatings数据集举例,首先加载psych包,然后使用fa.parallel函数绘制下图,从图中可见第一主成分位于红线上方,第二主成分位于红线下方,因此主成分数目选择1。查看源代码打印帮助1fa.parallel(USJudgeRatings[,-1], fa=pc, n.iter=100, show.legend=FALSE)二、提取主成分查看源代码打印帮助1pc=principal(USJudgeRatings[,-1],nfactors=1) PC1 h2 u21 0.92 0.84 0.15652 0.91 0.83 0.16633 0.97 0.94 0.06134 0.96 0.93 0.07205 0.96 0.92 0.07636 0.98 0.97 0.02997 0.98 0.95 0.04698 1.00 0.99 0.00919 0.99 0.98 0.019610 0.89 0.80 0.201311 0.99 0.97 0.0275从上面的结果观察到,PC1即主成分负荷,是观测变量与主成分之间的相关系数,h2是变量能被主成分解释的比例,u2则是不能解释的比例。三、旋转主成分旋转是将主成分负荷进行变换,以方便解释。可分为正交旋转和斜交旋转。正交旋转的流行方法是方差最大化,需要在principal中增加rotate=varimax参数四、计算主成分得分主成分得分是各变量的线性组合,需在principal中增加score参数,结果将存放在scores中。但注意如果输入数据不是原始数据时,则无法计算主成分得分。B. 探索性因子分析 探索性因子分析(Exploratory Factor Analysis,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。 因而,EFA能够将将具有错综复杂关系的变量综合为少数几个核心因子。EFA和PCA的区别在于:PCA中的主成分是原始观测变量的线性组合,组合的选择是在各主成分无关条件下使其方差最大化。而EFA中的因子是影响原始观测变量的潜在变量,变量中不能被因子所解释的部分称为误差,因子和误差均不能直接观察到。进行EFA需要大量的样本,一般经验认为如何估计因子的数目为N,则需要有5N到10N的样本数目。虽然EFA和PCA有本质上的区别,但在分析流程上有相似之处。下面我们用ability.cov这个心理测量数据举例,其变量是对人的六种能力,例如阅读和拼写进行了测验,其数据是一个协方差矩阵而非原始数据。R语言中stats包中的factanal函数可以完成这项工作,但这里我们使用更为灵活的psych包。一、选择因子个数一般选择因子个数可以根据相关系数矩阵的特征值,特征值大于0则可选择做为因子。我们使用平行分析法(parallel analysis)。该方法首先生成若干组与原始数据结构相同的随机矩阵,求出其特征值并进行平均,然后和真实数据的特征值进行比对,根据交叉点的位置来选择因子个数。根据下图我们可以观察到特征值与红线的关系,有两个因子都位于红线上方,显然应该选择两个因子。查看源代码打印帮助1library(psych) 2covariances - ability.cov$cov3correlations - cov2cor(covariances) 4fa.parallel(corr
您可能关注的文档
- 2016.12《人力资源管理概论》期末考试试题.doc
- 2016-2021年人力资源软件市场前景预测及投资规划分析报告(目录).doc
- 2016-2021年人力资源系统市场前景预测及投资规划分析报告(目录).doc
- 2016-2021年柔性电热片市场前景预测及投资规划分析报告(目录).doc
- 2016-2021年柔性复合管市场前景预测及投资规划分析报告(目录).doc
- 2016-2021年柔性电路板市场前景预测及投资规划分析报告(目录).doc
- 2016-2021年柔性软管市场前景预测及投资规划分析报告(目录).doc
- 2016-2021年柔性石墨市场前景预测及投资规划分析报告(目录).doc
- 2016-2021年柔性树脂版市场前景预测及投资规划分析报告(目录).doc
- 2016年南京大学《西方生产性服务业研究述评》甄峰.pdf
最近下载
- 2024版房屋抵押贷款合同范本.docx VIP
- 基于反作用飞轮和磁力矩器的卫星姿态控制系统分析-analysis of satellite attitude control system based on reaction flywheel and magnetic torque device.docx VIP
- 地贫筛查中的血红蛋白电泳.pptx VIP
- 光电开关HPX-AG系列使用说明书.PDF VIP
- 精神科患者风险的管理.pptx VIP
- 保护女职工权益知识竞赛题库50题(答案).docx VIP
- 盖板涵施工监理细则.pdf VIP
- 迅达3300调试汇总.doc VIP
- (高清版)B-T 19843-2022 工业通风机 射流风机性能试验.pdf VIP
- 冰美人淘宝直播数据复盘.xlsx VIP
文档评论(0)