- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3讲主成份与因子分析
第3讲主成分分析与因子分析 实际问题中,为了尽可能完整的获得相关信息,往往要考虑众多的变量,这虽然避免了主要信息的遗漏,但也存在一定的不足: 变量太多会增加计算的复杂性 变量太多给分析问题和解释问题带来困难 变量提供的信息在一定程度上会有所重叠 在实证研究中,为了全面、系统地分析问题,都尽可能完整地搜集信息,对每个观测往往测量很多指标,这些指标在不同程度上反映了所研究问题的某些信息,并且指标之间避免不了有一定的相关性,因而所得的统计资料反映的信息在一定程度上有重叠。在研究问题时,变量太多会增大计算量和增加分析问题的复杂性,为了使问题简化,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多,主成分分析是解决这一问题的理想工具。 主成份分析 多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间往往存在着一定的相关性,例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性;身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。变量之间存在的相关性使得所观测到的数据在一定程度上反映的信息有所重迭。而且当变量较多时,在高维空间中研究样本的分布规律比较复杂。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,而且彼此之间互不相关。利用这种降维的思想,产生了主成分分析。主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。 一、主成分分析的基本思想和原理 主成分分析:在不致损失原变量太多信息 的条件下,尽可能降低原变量的维数。即 用为数较少的互不相关的新变量反映原变 量所提供的绝大部分信息。 二、主成分分析的数学模型 对应的相关系数矩阵为 rij(i,j=1,2,…,p)为原变 量 与 的相关系数, rij=rji, 1. 估计主成分 (1)计算相关系数矩阵 rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji, PCA 常用统计量: 1.特征根 λi 2.各成分贡献率 3.前各成分累计贡献率 4.特征向量 各成分表达式中标准化原始变量的系数向量,就是各成分的特征向量。 例1 某医学院测得了20例肝病患者的4项肝功能指标: SGPT(转氨酶),肝大指数,ZnT(硫酸锌浊度)和 AFP(胎甲球),依次用X1~X4表示,数据如下表。 试进行主成分分析。 用sas进行主成分分析 data exp1; input x1-x4; cards; 40 2 5 20 10 1.5 5 30 120 3 13 50 250 4.5 18 0 120 3.5 9 50 10 1.5 12 50 40 1 19 40 270 4 13 60 280 3.5 11 60 170 3 9 60 180 3.5 14 40 130 2 30 50 220 1.5 17 20 160 1.5 35 60 220 2.5 14 30 140 2 20 20 220 2 14 10 40 1 10 0 20 1 12 60 120 2 20 0 ; proc princomp out=pc prefix=y; var x1-x4; proc print data=pc; run; 例2 在一项有关挫折应对方式的研究中,研究者用应对方式问卷测试了60名受试者受挫时的应对方式情况。每个应对方式题项回答都采用5级评分,1表示从不、2表示较少、3表示中等、4表示较多、5表示绝大部分,结果见下表。问能否用少数几个综合性指标反映受试者的应对方式特征?还有,本问卷编制者认为应对方式可以分成积极主动与消极被动两个纬度,此构想是否成立? 例3 一月和七月平均气温的主成分分析 在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主分量分析。 例3 DATA TEMPERAT; INPUT CITY $1-15 JANUARY JULY; CARDS; MOBILE 51.2 81.6 PHOENIX 51.2 91.2 LITTLE ROCK 39.5 81.4 SACRAMENTO 45.1 75.2 DENVER 29.9 73.0 HARTFORD
您可能关注的文档
最近下载
- 三一SY235C9I2KS维护保养手册.pdf VIP
- 纪念中国人民抗日战争暨世界反法西斯战争胜利80周年PPT课件.pptx VIP
- 陶瓷原料及配方基础.ppt VIP
- 茶小绿叶蝉的防治课件.pptx VIP
- 电梯制造与安装安全规范 GB7588-2003.docx VIP
- 2023民航特种车辆操作工民航特种车辆操作工试卷(练习题库).docx VIP
- IEC 60840-2004 额定电压30kV(Um=36kV)以上至150kV(Um=170kV)挤包绝缘电力电缆及其附件试验方法和要求(中文).pdf VIP
- 22G101 三维彩色立体图集.docx VIP
- 混凝土混凝土.ppt VIP
- 沈萍微生物课件第3章b.ppt VIP
文档评论(0)